搜索关键字：jieba，搜索到462个结果！码迷,mamicode.com！

中文词频统计

题目：下载一长篇中文文章。从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) ...

分类：其他好文时间：2018-03-28 01:40:05 阅读次数：209

中文词频统计

#coding=utf--8 import jieba exclude={',','、','。','\u3000','\n','"',"《",'》','?'} txt=open('doupo.txt','r').read() wordList=list(jieba.cut(txt)) wordSet... ...

分类：其他好文时间：2018-03-28 00:00:38 阅读次数：198

中文词频统计

下载一长篇中文文章。从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...

分类：其他好文时间：2018-03-27 22:26:40 阅读次数：223

jieba中文处理

一：前言和拉丁语系不同，亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候，大部分情况下，词汇是我们对句子和文章理解的基础，因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具，是以分词起家的，但是功能比分词要强大很多。二：基本分词函 ...

分类：其他好文时间：2018-03-27 21:57:22 阅读次数：1318

R语言-文本挖掘

恢复内容开始案例1:对主席的新年致辞进行分词,绘制出词云掌握jieba分词的用法 1.加载包 2.导入数据 3.清洗数据 4.移除感叹词 5.绘制词云案例2:通过拉勾网的数据进行分析,找出数据分析师相关的城市,薪水,工作年限等信息数据集下载：链接:https://pan.baidu.com/ ...

分类：编程语言时间：2018-03-27 02:01:09 阅读次数：957

Py：数据挖掘之对个人微信朋友圈好友的性别、区域、昵称、签名信息进行情感分析——Jason niu

#Py：数据挖掘之对微信朋友圈好友的性别、区域、昵称、签名信息进行情感分析——Jason niu import os import re import csv import time import json import jieba from jieba import analyse import ... ...

分类：微信时间：2018-03-15 00:31:16 阅读次数：268

jieba分词器

始终觉得官方文档是最好的学习途径。嗯，我只是一个大自然的搬运工。 jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使 ...

分类：其他好文时间：2018-03-14 18:07:36 阅读次数：193

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程

1. 数据采集：Python爬取淘宝网商品数据 2. 对数据进行清洗和处理 3. 文本分析：jieba分词、wordcloud可视化 4. 数据柱形图可视化 barh 5. 数据直方图可视化 hist 6. 数据散点图可视化 scatter 7. 数据回归分析可视化 regplot ...

分类：编程语言时间：2018-03-09 13:18:55 阅读次数：290

记一次结巴分词.net core 2.0版 nuget发布过程

最近用到分词考虑很久，选用了结巴分词，原因见博客 "Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考" 既然选好了，难就开始行动吧。查了.net core版的JIEba分词目前已经有人迁移了 1. "https://github.com ...

分类：Web程序时间：2018-02-28 22:59:11 阅读次数：969

jieba分词

支持三种分词模式： ? 精确模式，试图将句子最精确地切开，适合文本分析； ? 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义； ? 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 http://www.cnblogs.com/to ...

分类：其他好文时间：2018-02-26 13:28:43 阅读次数：181

共462条上一页 1 ... 29 30 31 32 33 ... 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)