码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
jieba库的基本介绍及爬虫基本操作
jieba库基本介绍 jieba库的安装 pip install jieba (cmd命令行) jieba分词的三种模式 精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 爬 ...
分类:其他好文   时间:2019-10-28 20:48:11    阅读次数:80
结巴分词与词云,简单爬虫——10.28 (python)
bilibili弹幕词云 美国历史词云 结巴分词 import jieba txt=" **** " 精确模式: 全模式: 搜索模式: res = jieba.cut(txt) res =jieba.cut(txt ,cut_all=True) res=jieba.cut_for_search(tx ...
分类:编程语言   时间:2019-10-28 19:18:58    阅读次数:156
词频分析
词频分析,分析一段文字或者一段话每个单词出现的频率。对于英文文章,我们可以使用split()函数进行文章段落的切割,对于中文,我们可以使用jieba库进行文章段落的分割。 上面的代码就是对txt这个文本,使用jieba提供的三种分词模式进行分词,得到的结果为。 三种分词模式分别是精确模式、全模式和搜 ...
分类:其他好文   时间:2019-10-19 14:39:43    阅读次数:79
Python使用jieba分词
附加:另一种jieba分词写法: 参考jieba中文分词:https://github.com/fxsjy/jieba ##欢迎讨论 ...
分类:编程语言   时间:2019-10-17 01:20:29    阅读次数:123
Python统计字符出现次数(Counter包)以及txt文件写入
1. 统计字符(可以在jieba分词之后使用) 2. 多次覆盖,循环写入文件 比如,循环两次的结果是: 3. 一次性写入文件,中间不会覆盖和多次写入;但是如果重复运行代码,则会覆盖之前的全部内容,一次性重新写入所有新内容 ...
分类:编程语言   时间:2019-10-16 23:20:47    阅读次数:109
朴素贝叶斯应用-机器学习-新浪新闻分类器
朴素贝叶斯应用 机器学习 新浪新闻分类器 本文代码及数据均来自于https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 这个例子比较有实践意义,不仅使用了jieba、sklearn,并且其中用到的思想也是很实用的。 jieba "结巴"中文分词:做最 ...
分类:其他好文   时间:2019-10-08 19:21:45    阅读次数:102
Django之使用haystack+whoosh实现搜索功能
Django之使用haystack+whoosh实现搜索功能,本文介绍的是如何通过搜索框来实现搜索功能,比如当我们的商城项目呀搜索商品时,或者论坛项目要搜索帖子时使用。内容包括 全文检索框架和引擎的安装和配置,生成索引文件,使用全文检索,以及使用中文分词包jieba等。 ...
分类:其他好文   时间:2019-10-07 11:17:48    阅读次数:87
anaconda导包
注意:1,用anaconda导包时要注意在在相应的环境下,例如(base),(tensorflow) 2.一般情况下,直接 conda install 包名,eg: conda install jieba 有时候上面这样做会遇到问题,他自己找不到合适的版本安装,大概是第四行,有environment ...
分类:其他好文   时间:2019-10-06 22:05:18    阅读次数:97
使用python对美团的评论进行贝叶斯模型分类
环境配置需要安装的包pip install pandas pip install jieba pip install sklearn 一、数据获取利用python抓取美团的数据集,获取非空的数据,抓取的字段包括店名、评论、评论的打分二、数据预处理 导入sklearn的包 系统默认的包 1.数据洗涤将 ...
分类:编程语言   时间:2019-10-06 18:36:59    阅读次数:242
Haystack全文检索框架中使用jieba分词包
1.安装jieba 2.引入jieba cd 到haystack安装目录backends下, 新建文件ChineseAnalyzer.py,键入内容 3.更改haystack的后台文件文件夹下cp并修改whoosh_backend.py, 增加jieba. # 文件名是惯例, 可自行修改修改whoo ...
分类:其他好文   时间:2019-09-30 21:34:50    阅读次数:99
462条   上一页 1 ... 11 12 13 14 15 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!