‘‘‘importosimportjieba#分词包importnumpy#numpy计算包importcodecs#codecs提供open方法指定打开的文件的语言编码,它会在读取时自动转换为内部的unicodeimportpandas#统计学工具包importmatplotlib.pyplotaspltfromwordcloudimportWordCloud,ImageColorGenerat
分类:
编程语言 时间:
2018-05-15 18:28:24
阅读次数:
197
jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个词语 jieba是优秀的中文分词第三方库,需要额外安装 (pip install jieba) jieba库提供三种分词模式,最简单只需掌握一个函数 jieba分词原理 利用一个中文词库,确定汉字之间的关系概率 汉字之间概率大的组成词组 ...
分类:
编程语言 时间:
2018-05-01 23:27:12
阅读次数:
468
import requests, re, jieba,pandas from bs4 import BeautifulSoup from datetime import datetime from wordcloud import WordCloud import matplotlib.pyplot... ...
分类:
其他好文 时间:
2018-04-30 18:11:59
阅读次数:
163
1.主题: 简单爬取简书中的专题‘’@IT·互联网“中的文章,爬取信息之后通过jieba分词生成词云并且进行分析; 2.实现过程: 第一步:打开简书并进入到@IT-互联网专题 网页链接:https://www.jianshu.com/c/V2CqjW?utm_medium=index-collect ...
分类:
编程语言 时间:
2018-04-29 22:13:59
阅读次数:
332
Created by yinhongyu at 2018 4 28 email: hyhyin@163.com 使用jieba和sklearn实现了tf idf的计算 1 读取数据文件 数据爬取自新浪新闻,以"中美贸易战"为关键词,按照相关度搜索,爬取了搜索结果的前100页新闻的正文; 标题 来源 ...
分类:
其他好文 时间:
2018-04-28 14:19:01
阅读次数:
612
nlp词性标注 与分词函数不同,jieba库和pyltp库词性标注函数上形式相差极大。 jieba的词性标注函数与分词函数相近, 函数有两个参数,sentence是一段文本。 pyltp的词性标注函数 有一个参数,words是分词模块的返回值,或者是Python原生的list类型。 nltk中的词性 ...
分类:
其他好文 时间:
2018-04-27 02:17:29
阅读次数:
616
import requests from bs4 import BeautifulSoup import json import jieba.analyse from PIL import Image import numpy as np import matplotlib.pyplot as pl... ...
分类:
其他好文 时间:
2018-04-24 20:19:23
阅读次数:
191
转载: http://www.cnblogs.com/jiayongji/p/7119065.html 结巴是一个功能强大的分词库。 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 ...
分类:
编程语言 时间:
2018-04-24 17:26:45
阅读次数:
361
import jieba.analyse from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColor... ...
分类:
其他好文 时间:
2018-04-24 00:18:31
阅读次数:
208