码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
Python文本处理: 分词和词云图
‘‘‘importosimportjieba#分词包importnumpy#numpy计算包importcodecs#codecs提供open方法指定打开的文件的语言编码,它会在读取时自动转换为内部的unicodeimportpandas#统计学工具包importmatplotlib.pyplotaspltfromwordcloudimportWordCloud,ImageColorGenerat
分类:编程语言   时间:2018-05-15 18:28:24    阅读次数:197
Python第三方库____jieba
jieba是优秀的中文分词第三方库 中文文本需要通过分词获得单个词语 jieba是优秀的中文分词第三方库,需要额外安装 (pip install jieba) jieba库提供三种分词模式,最简单只需掌握一个函数 jieba分词原理 利用一个中文词库,确定汉字之间的关系概率 汉字之间概率大的组成词组 ...
分类:编程语言   时间:2018-05-01 23:27:12    阅读次数:468
爬虫大作业
import requests, re, jieba,pandas from bs4 import BeautifulSoup from datetime import datetime from wordcloud import WordCloud import matplotlib.pyplot... ...
分类:其他好文   时间:2018-04-30 18:11:59    阅读次数:163
python爬虫(以简书为例)
1.主题: 简单爬取简书中的专题‘’@IT·互联网“中的文章,爬取信息之后通过jieba分词生成词云并且进行分析; 2.实现过程: 第一步:打开简书并进入到@IT-互联网专题 网页链接:https://www.jianshu.com/c/V2CqjW?utm_medium=index-collect ...
分类:编程语言   时间:2018-04-29 22:13:59    阅读次数:332
结巴并行分词
源文件有4列 ...
分类:其他好文   时间:2018-04-28 15:45:21    阅读次数:146
使用sklearn进行中文文本的tf idf计算
Created by yinhongyu at 2018 4 28 email: hyhyin@163.com 使用jieba和sklearn实现了tf idf的计算 1 读取数据文件 数据爬取自新浪新闻,以"中美贸易战"为关键词,按照相关度搜索,爬取了搜索结果的前100页新闻的正文; 标题 来源 ...
分类:其他好文   时间:2018-04-28 14:19:01    阅读次数:612
nlp词性标注
nlp词性标注 与分词函数不同,jieba库和pyltp库词性标注函数上形式相差极大。 jieba的词性标注函数与分词函数相近, 函数有两个参数,sentence是一段文本。 pyltp的词性标注函数 有一个参数,words是分词模块的返回值,或者是Python原生的list类型。 nltk中的词性 ...
分类:其他好文   时间:2018-04-27 02:17:29    阅读次数:616
爬虫大作业
import requests from bs4 import BeautifulSoup import json import jieba.analyse from PIL import Image import numpy as np import matplotlib.pyplot as pl... ...
分类:其他好文   时间:2018-04-24 20:19:23    阅读次数:191
python结巴分词
转载: http://www.cnblogs.com/jiayongji/p/7119065.html 结巴是一个功能强大的分词库。 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 ...
分类:编程语言   时间:2018-04-24 17:26:45    阅读次数:361
爬虫大作业
import jieba.analyse from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColor... ...
分类:其他好文   时间:2018-04-24 00:18:31    阅读次数:208
462条   上一页 1 ... 26 27 28 29 30 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!