上个星期五(16/11/18)去看了冯小刚的最新电影《我不是潘金莲》，电影很长，有点黑色幽默。看完之后我就去知乎，豆瓣电影等看看大家对于这部电影的评价。果然这是一部很有争议的电影，无论是在知乎还是豆瓣，大家对这部电影褒贬不一，有的说拍的好，寓意深刻，具有很强的现实讽刺意味，也有的说故作矫情，是一部烂片。大家众说纷纭，那么这部电影到底怎么样呢？我想还是用事实说话比较好。我想到最近刚好我学习了一段时间的爬虫了，也知道词云可以形象地反映词语分布。所以我决定亲自动手对《我不是潘金莲》制作一个词云。

先说一下使用的工具：python2.7.12 wordcloud1.2.1 selenium2.53.6 jieba(一个中文分词工具) 分析的文本来源为豆瓣电影下《我不是潘金莲》的1.6W+评论。

selenium 是一个可以操纵浏览器的爬虫工具，对于抓取动态页面(js生成的页面)非常方便。这里之所以使用selenium的一个主要原因是，电影的评论只有在登录之后才可以全部抓取，如果使用urllib2等标准库模拟登录，因为还要处理验证码等，略显麻烦，而使用selenium则非常简便。

jieba 是一个优秀的中文分词工具，功能强大并且使用简便，这里因为涉及到中文，wordcloud对于中文的分词支持不是特别好，所以需要我们手动分词，我把这个任务交给了jieba。

制作词云的流程如下:

1.使用selenium 登录豆瓣，抓取《我不是潘金莲》下所有电影评论，并且保存到txt文件（一行是一条评论）

2. 使用jieba 对于评论进行分词，得到新的文本

3. 对于新的文本使用wordcloud 进行制作词云

话不多说，下面直接贴代码:

按 Ctrl+C 复制代码

有几点需要说明：

1.使用selenium简化了登录抓取过程，但是也有一个缺点，因为需要启动浏览器，所以抓取效率就比较低，电影评论页数较多，有时会出现网页加载过慢等情况导致无法正常抓取数据。所以这里使用n，count作为标记，记录意外退出时上次抓取的位置，这样下次可以继续从上次中断的地方抓取。

2. wordcloud 默认的是英文字体，所以在WordCloud()方法中需要指定一个中文字体的位置(可以使用windows自带的中文字体，比如宋体，楷体都可以)，使用font_path="字体路径"

3. selenium 如果驱动狐火浏览器的话，需要自行下载驱动（一个.exe文件），具体方法可以自行上网搜索，这里不赘述。

最后下载的评论文本文件我已经放到我的github（https://github.com/Lyrichu/selenium/blob/master/pjl_comment.txt），有兴趣的朋友可以自己下载。最后得到的词云图如下:

技术分享

python wordcloud