码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
词汇与分词技术
中文分词主要分为三个流派:机械式分词法(基于词典):简单来说就是建立一个巨大的词典,然后将词典中的词语和文章中的词语相匹配,找到这个词语就算匹配成功,但是词典的完备性得不到保证。也就是文章中的有的词语在词典中找不到。基于语法和规则的分词法:分词的同时在句法语义方面进行分析,利用句法信息和语义信息进行词性标注,解决分词的歧义。因为现在的语法句法还十分复杂,所以精度还不高。基于统计的分词法根据字符串在
分类:其他好文   时间:2018-04-24 11:50:25    阅读次数:166
爬虫大作业-爬区a9vg电玩部落ps4专区
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 通过使用第三方的jieba库进行中文分词,其中有过多新闻正文内容包含视频链接,所以通过设计了停用词,去掉 ...
分类:其他好文   时间:2018-04-23 00:09:24    阅读次数:228
给Solr配置中文分词器
第一步下载分词器https://pan.baidu.com/s/1X8v65YZ4gIkNQXsXfSULBw 第二歩打开已经解压的ik分词器文件夹 将ik-analyzer-solr5-5.x.jar,IKAnalyzer.cfg.xml复制到 apache-tomcat-8.5.24\webap ...
分类:其他好文   时间:2018-04-21 17:41:42    阅读次数:185
pyltp安装踩坑记录
LTP(Language Technology Platform)由哈工大社会计算与信息检索研究中心开发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 LTP的源码是C++,也提供Java和Python版本。Python版本的安装方法是 ...
分类:其他好文   时间:2018-04-18 23:40:35    阅读次数:1790
Python中文分词 jieba
三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 关键词提取 运行结果如图所示,但是同样的我们也发现了一些问题,比如: 问题一: 分词错误,在运行结果中中”路明非”(龙族男主)被分成了”路明”和”明非”啷个中文词语,这是因为jieba的词库中并不含有 ...
分类:编程语言   时间:2018-04-14 20:44:09    阅读次数:529
ElasticSearch笔记整理(三):Java API使用与ES中文分词
ElasticSearch笔记整理(三):Java API使用与ES中文分词
分类:编程语言   时间:2018-04-11 15:05:26    阅读次数:525
scws中文分词安装和使用
一、下载源码 二、执行配置脚本和编译 具体选项参数执行 ./configure --help 查看。常用选项为:--prefix=指定安装目录 检查是否安装成功 三、下载通用词典 四、编译PHP扩展 更新PHP扩展需要autoconf、automake及phpize工具,如果没有的话需要新安装。 在 ...
分类:其他好文   时间:2018-04-07 18:54:44    阅读次数:187
中文分词
算法 正向最大匹配法; 基于最大概率分词方法 数据结构 在本次实验中最重要的事情就是建立合理的字典的索引结构,使得查询的速度、存储的空间需求达到较好的性能。 通过观察字典内容可知,存在多个词语有相同前缀的情况,而且数目是比较多的。如果按照直观的思想,直接将所有的词语保存在一个数据组中以供检索时候使用 ...
分类:其他好文   时间:2018-04-07 12:50:30    阅读次数:196
spark集群环境下使用hanlp进行中文分词
1、将下载的hanlp-portable-1.6.2.jar复制到集群spark/jar文件夹下面 2、启动spark集群 spark/bin/spark-shell --executor-memory 6g --driver-memory 1g --executor-cores 2 --num-e ...
分类:其他好文   时间:2018-04-06 12:31:07    阅读次数:161
中文分词工具jieba的使用
中文分词工具jieba的使用 1.进入到安装了全文检索工具包的虚拟环境中 /home/python/.virtualenvs/py3_django/lib/python3.5/site-packages/ 进入到haystack/backends/中 2.创建ChineseAnalyzer.py文件 ...
分类:其他好文   时间:2018-04-03 23:56:32    阅读次数:206
704条   上一页 1 ... 19 20 21 22 23 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!