码迷,mamicode.com
首页 >  
搜索关键字:中文分词    ( 704个结果
读《数学之美》有感——第一篇
《数学之美》让我改变了对数学刻板的印象,我一直都不知道数学研究得那么深入,到底有什么作用。但是经过这一次阅读,我发现数学之美可以通过信息技术直接具体地展示在人们面前。我们在解决一些问题上,一个优秀的模型对于解决问题来说实在太重要了。 我先介绍两个我觉得比较有意思的应用吧!首先是数学在中文分词中的意义 ...
分类:其他好文   时间:2019-09-10 20:53:27    阅读次数:95
数学之美观后感之谈谈中文分词
数学之美观后感谈谈中文分词读后感 不简单的美 简单、高效,一直是人们追捧着的事物,人们讨厌麻烦的事物,希望简洁可以取缔一切。可汉字不同,纵使你万般精简,也褪去不了她独有的魅力。一句话,常常可以分隔成多个部分,每一部分可以比作一个颗粒,然后一个颗粒,一个颗粒的加工、细化。但是汉字不同,有时,相同的颗粒 ...
分类:其他好文   时间:2019-09-08 22:25:24    阅读次数:164
大数据之路【第十三篇】:数据挖掘---中文分词
一、数据挖掘 中文分词 ? 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。? 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店? 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。? 如果没有中文分词会出现: – 搜索“达内”,会出现 ...
分类:其他好文   时间:2019-09-04 09:35:50    阅读次数:108
20个必不可少的Python库也是基本的第三方库
今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是: Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的。用过它之后你就不会再想用别的同类 ...
分类:编程语言   时间:2019-08-27 19:11:18    阅读次数:80
(06)ElasticSearch 分词器介绍及安装中文分词器
分词器是用来实现分词的,从一串文本当中切分出一个一个的单词(词条),并对每个词条进行标准化处理(大小写、单复数、同义词等转换)。分词器包括3部分: 1、character filter:分词之前的预处理,过滤掉html标签,特殊符号转换等。 2、tokenizer:分词, 3、token filte ...
分类:其他好文   时间:2019-08-24 18:20:07    阅读次数:83
jieba分词与HMM学习
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 ...
分类:其他好文   时间:2019-08-22 01:13:57    阅读次数:242
ElasticSearch的中文分词器ik
一、前言 为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。 二、IK分词器的安装和使用 2.1、安装ik 我们可以从官方github上下载该插件,我们下载对应于我们使用的e ...
分类:其他好文   时间:2019-08-21 00:03:11    阅读次数:114
elasticsearch-analysis-ik windows 环境 IK 中文分词器 的 下载 和 安装
1,下载插件压缩包(本地测试建议用迅雷下,生产用的绝对不要用迅雷下),链接地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.3.0 2,在 elasticsearch-7.3.0\plugins 目录下新建一个 ...
分类:Windows程序   时间:2019-08-20 09:14:06    阅读次数:123
爬虫基础
通用爬虫和聚焦爬虫 一、通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 二、通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网 ...
分类:其他好文   时间:2019-08-19 22:44:08    阅读次数:102
中文分词工具——jieba
汉字是智慧和想象力的宝库。 ——索尼公司创始人井深大 简介 在英语中,单词就是“词”的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定。例如:南京市长江大桥,可以分词为:“南京市/长江/大桥”和“南京市长/江大桥”,这个 ...
分类:其他好文   时间:2019-08-11 17:14:13    阅读次数:129
704条   上一页 1 ... 7 8 9 10 11 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!