码迷,mamicode.com
首页 >  
搜索关键字:jieba分词    ( 108个结果
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac ...
分类:其他好文   时间:2019-01-19 00:45:32    阅读次数:3414
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了。 使用python 爬取博客园首页文章链接和标题。 首先当然是环境了,爬虫在window10系统下,python3.6.5环境中运行。使用python中的requests模块和BeautifulSoup模块。 通 ...
分类:编程语言   时间:2019-01-15 14:10:56    阅读次数:219
用Python和WordCloud绘制词云(内附让字体清晰的秘笈)
环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点。 思路: 先提取项目的名称,再用Jieba分词后提取词汇;过滤掉“研发”、“系列”等无意义的词;最后 ...
分类:编程语言   时间:2019-01-08 15:32:26    阅读次数:254
自然语言处理课程(二):Jieba分词的原理及实例操作
文章来源:企鹅号 - 一鱼数据 文|一鱼数据 上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论。接下来,我们将要了解一些具体的、可操作的技术方法。 作为小说爱好者的你,是否有设想过通过一些计算机工具对小说做一些有趣的事情呢?阅读本文,你可以了解到如何运 ...
分类:编程语言   时间:2018-12-26 19:53:48    阅读次数:196
jieba分词与worldcloud词云
中文分词的优秀库。 安装:pip install jieba 主要有三种模式,但是最主要有一个函数 模式:精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式上,对长词再次切分 函数:jieba.lcut(str):精确模式,返回一 ...
分类:其他好文   时间:2018-12-25 23:42:29    阅读次数:260
jieba 分词简单应用
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...
分类:其他好文   时间:2018-12-15 18:47:29    阅读次数:201
jieba库基本使用
概述: jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装:pip install jieba import jieba jieba分词的三种模式 精确模式:把文本精确的分开,不存在冗余单词 全模式:把文本中所有可能的 ...
分类:其他好文   时间:2018-12-14 01:00:20    阅读次数:678
django-haystack全文检索
一:使用的工具haystack是django的开源搜索框架,该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎,不用更改代码,直接切换引擎,减少代码量。搜索引擎使用Whoosh,这是一个由纯Python实现的全文搜索引擎,没有二进制文件等,比较小巧,配置比较简单 ...
分类:其他好文   时间:2018-11-27 14:39:24    阅读次数:229
爬虫之豆瓣词云
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:其他好文   时间:2018-11-10 21:16:31    阅读次数:324
爬虫之豆瓣图书评论词云
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:其他好文   时间:2018-11-10 21:11:14    阅读次数:174
108条   上一页 1 ... 4 5 6 7 8 ... 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!