文章来源:企鹅号 - 一鱼数据 文|一鱼数据 上节课,我们学习了自然语言处理课程(一):自然语言处理在网文改编市场的应用,了解了相关的基础理论。接下来,我们将要了解一些具体的、可操作的技术方法。 作为小说爱好者的你,是否有设想过通过一些计算机工具对小说做一些有趣的事情呢?阅读本文,你可以了解到如何运 ...
分类:
编程语言 时间:
2018-12-26 19:53:48
阅读次数:
196
中文分词的优秀库。 安装:pip install jieba 主要有三种模式,但是最主要有一个函数 模式:精确模式:把文本精确的切分开,不存在冗余单词 全模式:把文本中所有可能的词语都扫描出来,有冗余 搜索引擎模式:在精确模式上,对长词再次切分 函数:jieba.lcut(str):精确模式,返回一 ...
分类:
其他好文 时间:
2018-12-25 23:42:29
阅读次数:
260
from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.readline... ...
分类:
其他好文 时间:
2018-12-25 18:14:43
阅读次数:
398
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...
分类:
其他好文 时间:
2018-12-15 18:47:29
阅读次数:
201
起因:jieba.load_userdict('C:\\Users\\lim\\Desktop\\dict.txt') 异常描述: 由异常描述可知,结巴默认的是使用“utf-8”来打开文件,因此我们需要修改文件的编码 属于编码解码的问题,默认的会跟随系统使用GBK,需要修改成UTF-8 首先在文件的 ...
分类:
其他好文 时间:
2018-12-14 13:04:51
阅读次数:
156
概述: jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装:pip install jieba import jieba jieba分词的三种模式 精确模式:把文本精确的分开,不存在冗余单词 全模式:把文本中所有可能的 ...
分类:
其他好文 时间:
2018-12-14 01:00:20
阅读次数:
678
一:使用的工具haystack是django的开源搜索框架,该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎,不用更改代码,直接切换引擎,减少代码量。搜索引擎使用Whoosh,这是一个由纯Python实现的全文搜索引擎,没有二进制文件等,比较小巧,配置比较简单 ...
分类:
其他好文 时间:
2018-11-27 14:39:24
阅读次数:
229
1.安装第三方库(matplotlib,jieba,wordcloud,numpy) 1.1安装方法:pip命令在线安装(python3.x默认安装了pip,pip下载地址:https://pypi.python.org/pypi/pip#downloads) 已经配置好环境变量前提下,在cmd窗口 ...
分类:
其他好文 时间:
2018-11-26 00:07:13
阅读次数:
611
import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word ...
分类:
其他好文 时间:
2018-11-19 12:31:29
阅读次数:
189
#-*- coding: utf-8 -*-import jieba.analyseimport numpy as npdef word_hash(t, w): if int(t)==1: return w else: return -wdef content_hash(t): if float(t ...
分类:
其他好文 时间:
2018-11-16 10:31:02
阅读次数:
201