码迷,mamicode.com
首页 >  
搜索关键字:jieba分词    ( 108个结果
Python高级应用程序设计
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取视频网站中的电影排名信息2.主题式网络爬虫爬取的内容与数 ...
分类:编程语言   时间:2019-11-30 13:22:53    阅读次数:90
jieba/word cloud
1、jieba jieba分词库的使用 2、wordcloud wordcloud词云库的使用 wordcloud词云绘图 3、turtle 彩色蟒蛇绘制 七段数码管绘制 ...
分类:其他好文   时间:2019-11-23 12:48:01    阅读次数:60
python jieba库的使用说明
阅读目录 回到顶部 1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba ...
分类:编程语言   时间:2019-11-03 22:05:59    阅读次数:183
jieba分词基础知识
安装:pip install jieba 导包:import jieba 精确模式:试图将句子最精确地切开,适合文本分析(很像人类一样去分词) jieba.cut(字符串) --> 返回生成器 jieba.lcut(字符串) --> 返回列表 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常 ...
分类:其他好文   时间:2019-10-29 21:43:28    阅读次数:112
jieba库的基本介绍及爬虫基本操作
jieba库基本介绍 jieba库的安装 pip install jieba (cmd命令行) jieba分词的三种模式 精确模式、全模式、搜索引擎模式 精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式基础上,对长词再次切分 爬 ...
分类:其他好文   时间:2019-10-28 20:48:11    阅读次数:80
Python使用jieba分词
附加:另一种jieba分词写法: 参考jieba中文分词:https://github.com/fxsjy/jieba ##欢迎讨论 ...
分类:编程语言   时间:2019-10-17 01:20:29    阅读次数:123
Python统计字符出现次数(Counter包)以及txt文件写入
1. 统计字符(可以在jieba分词之后使用) 2. 多次覆盖,循环写入文件 比如,循环两次的结果是: 3. 一次性写入文件,中间不会覆盖和多次写入;但是如果重复运行代码,则会覆盖之前的全部内容,一次性重新写入所有新内容 ...
分类:编程语言   时间:2019-10-16 23:20:47    阅读次数:109
Haystack全文检索框架中使用jieba分词包
1.安装jieba 2.引入jieba cd 到haystack安装目录backends下, 新建文件ChineseAnalyzer.py,键入内容 3.更改haystack的后台文件文件夹下cp并修改whoosh_backend.py, 增加jieba. # 文件名是惯例, 可自行修改修改whoo ...
分类:其他好文   时间:2019-09-30 21:34:50    阅读次数:99
读<<为了替女朋友买件内衣,用Python爬虫>>有感
本文主要讨论的是通过爬取天猫的销售数据和评论数据后,对数据进行清洗,并进行分析。流程大致为:1.通过selenium爬取销售数据; 2.通过selenium和re正则表达式爬取评论数据;3.通过pandas对数据进行清洗和分析;4.运用matplotlib和wordcount来进行可视化 1、故事的 ...
分类:编程语言   时间:2019-09-10 23:55:18    阅读次数:212
jieba分词与HMM学习
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 ...
分类:其他好文   时间:2019-08-22 01:13:57    阅读次数:242
108条   上一页 1 2 3 4 5 6 ... 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!