博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 文本分析_使用Python进行文本分析–书评
阅读量:2518 次
发布时间:2019-05-11

本文共 3150 字,大约阅读时间需要 10 分钟。

python 文本分析

This is a book review of by Dipanjan Sarkar

这是有关进行书评 Dipanjan Sarkar提出的一种

One of my go-to books for natural language processing with Python has been  by Steven Bird, Ewan Klein, and Edward Loper.  This has been the book for me and was one of my references.  I used this book so much, that I I had to buy a second copy of this book because I wore the first one out.  I’ve read many other NLP books but haven’t found any that could match this book – till now.

我使用Python进行自然语言处理的热门书籍之一是《使用Python进行 Steven Bird,Ewan Klein和Edward Loper。 这是给我的书,也是我的参考之一。 我用了这么多书,以至于我不得不买第二本书,因为我把第一本书都穿了。 我读过许多其他NLP书籍,但直到现在都找不到与这本书匹配的书籍。

by Dipanjan Sarkar is a fantastic book and has now taken a permanent place on my bookshelf.

Dipanjan Sarkar是一本很棒的书,现在已经在我的书架上占据了永久位置。

Unlike many books that I run across, this book spends plenty of time talking about the theory behind things rather than just doing some hand-waving and then showing some code. In fact, there isn’t any code (that I saw) until page 41. That’s impressive these days.   Here’s a quick overview of the book’s layout:

与我读过的许多书不同,这本书花了大量时间谈论事物背后的理论,而不仅仅是挥舞双手然后展示一些代码。 实际上,直到第41页都没有任何代码(我看到的)。这些天令人印象深刻。 这是本书布局的快速概述:

  • Chapter 1 provides the baseline for Natural Language. This is a very good overview for anyone that’s never worked much with NLP.
  • Chapter 2 is a python ‘refresher’. If you don’t know python at all but know some other language, this should get you started enough to use the rest of the book.
  • Chapter’s 3 – 7 is there the real fun begins. These chapters cover Text Classification, Summarization Similarity / Clustering and Semantic / Sentiment Analysis.
  • 第1章提供了自然语言的基础。 对于从未使用过NLP的人来说,这是一个很好的概述。
  • 第2章是python“刷新器”。 如果您根本不了解python,但了解其他语言,则应该可以使您开始使用本书的其余部分。
  • 第三章至第七章是真正的乐趣开始的地方。 这些章节涵盖了文本分类,摘要相似度/聚类和语义/情感分析。

If you have some familiarity with python and NLP, you can jump to Chapter 3 and dive into the details.

如果您对python和NLP有所了解,则可以跳至第3章,并深入研究细节。

What I really like about this book is that it places theory first.  I’m a big fan of ‘learning by doing’ but I think before you can ‘do’ you need to know ‘why’ you are doing what you are doing.  The code in the book is really well done as well and uses the NLTK,  Sklearn and gensim libraries for most of the work. Additionally, there are multiple ‘build your own’ sections where the author provides a very good overview (and walk-through) of what it takes to build your own functionality for your own NLP work.

我真正喜欢这本书的地方在于它将理论放在第一位。 我是“边做边学”的忠实拥护者,但我认为在“可以做”之前,您需要知道“为什么”在做自己在做的事情。 本书中的代码确实做得很好,并且使用NLTK,Sklearn和gensim库完成了大部分工作。 此外,还有多个“构建自己的”部分,作者在其中提供了很好的概述(和演练)以介绍如何为自己的NLP工作构建自己的功能。

This book is highly recommended.

强烈推荐这本书。



Links in this post:

这篇文章中的链接:

by Steven Bird, Ewan Klein, and Edward Loper.

Steven ,Ewan Klein和Edward Loper 。

from your Data by Dipanjan Sarkar

从您的数据中 Dipanjan Sarkar

 

Eric D. Brown , D.Sc. has a doctorate in Information Systems with a specialization in Data Sciences, Decision Support and Knowledge Management. He writes about utilizing python for data analytics at and the crossroads of technology and strategy at
埃里克·布朗(Eric D.Brown) 拥有信息系统博士学位,专门研究数据科学,决策支持和知识管理。 他写了关于利用数据分析Python在 技术和战略的十字路口在

翻译自:

python 文本分析

转载地址:http://kiqwd.baihongyu.com/

你可能感兴趣的文章
ruby 字符串学习笔记1
查看>>
local mysql and postgresql
查看>>
浙大pat 1025题解
查看>>
Python列表的深浅复制
查看>>
XXE注入攻击与防御
查看>>
js获取当前域名
查看>>
bare linefeeds received in ASCII mode
查看>>
PAT1101:Quick Sort
查看>>
Objective-C 高级编程:iOS与OS X多线程和内存管理
查看>>
Lambda表达式及其优势 [转]
查看>>
nghttp2 和nginx的实践
查看>>
清除eclipse项目中没用的图片、js、css代码
查看>>
鼠标拖拽和吸附功能
查看>>
winform关闭窗口
查看>>
php自定义验证码图片大小且可点击图片刷新验证码
查看>>
(中等) POJ 1436 Horizontally Visible Segments , 线段树+区间更新。
查看>>
Android用AutoCompleteTextView实现搜索历史记录提示
查看>>
Activity的加载模式及Intent.setFlags
查看>>
一次读入全部文件到内存中
查看>>
Eclipse+maven 构建第一个简单的springmvc项目
查看>>