安装numpy,scipy,gensim,jieba
分类:
其他好文 时间:
2018-08-02 16:57:36
阅读次数:
161
1.jieba的基本使用 1 import jieba 2 3 4 s1 = '我喜欢广州小蛮腰' 5 s2 = "我喜欢上海东方明珠" 6 #jieba,cut()#默认精准模式 7 print(10*'-','全模式',10*'-') 8 r1 = jieba.cut(s1,cut_all=Tr ...
分类:
其他好文 时间:
2018-07-27 14:46:26
阅读次数:
209
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:
其他好文 时间:
2018-07-23 19:57:03
阅读次数:
182
import xlrd import jieba import sys import importlib import os #python内置的包,用于进行文件目录操作,我们将会用到os.listdir函数 import pickle #导入cPickle包并且取一个别名pickle #持久化类 ... ...
分类:
其他好文 时间:
2018-07-23 15:05:15
阅读次数:
238
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 ...
分类:
编程语言 时间:
2018-07-18 20:47:32
阅读次数:
1682
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:
编程语言 时间:
2018-07-16 11:23:13
阅读次数:
195
0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师 说了个 文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了 如下 : 效果演示 0x01 准备环境及介绍 python3.x版本 随意 安装jieba库 pip install jieba jieba三种模式: ...
分类:
编程语言 时间:
2018-07-14 23:40:28
阅读次数:
2103
1 #统计《三国志》里人物的出现次数 2 3 import jieba 4 text = open('threekingdoms.txt','r',encoding='utf-8').read() 5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商... ...
分类:
编程语言 时间:
2018-07-12 23:47:12
阅读次数:
497
简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥 ...
分类:
编程语言 时间:
2018-07-06 19:43:33
阅读次数:
517
jiaba分词的原理 jiaba分词依靠中文词库 ——利用一个中文词库,确定汉字之间的关联概率 ——汉字间概率大的组成词组,形成分词结果 ——除了分词,用户还可以添加自定义的词组 jiaba库使用说明 精确模式、全模式、搜索引擎模式 ——精确模式:吧文本精确的切分开i,不存在冗余单词; ——全模式: ...
分类:
其他好文 时间:
2018-07-05 17:20:14
阅读次数:
206