《数学之美》让我改变了对数学刻板的印象,我一直都不知道数学研究得那么深入,到底有什么作用。但是经过这一次阅读,我发现数学之美可以通过信息技术直接具体地展示在人们面前。我们在解决一些问题上,一个优秀的模型对于解决问题来说实在太重要了。 我先介绍两个我觉得比较有意思的应用吧!首先是数学在中文分词中的意义 ...
分类:
其他好文 时间:
2019-09-10 20:53:27
阅读次数:
95
数学之美观后感谈谈中文分词读后感 不简单的美 简单、高效,一直是人们追捧着的事物,人们讨厌麻烦的事物,希望简洁可以取缔一切。可汉字不同,纵使你万般精简,也褪去不了她独有的魅力。一句话,常常可以分隔成多个部分,每一部分可以比作一个颗粒,然后一个颗粒,一个颗粒的加工、细化。但是汉字不同,有时,相同的颗粒 ...
分类:
其他好文 时间:
2019-09-08 22:25:24
阅读次数:
164
一、数据挖掘 中文分词 ? 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。? 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店? 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。? 如果没有中文分词会出现: – 搜索“达内”,会出现 ...
分类:
其他好文 时间:
2019-09-04 09:35:50
阅读次数:
108
今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是: Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的。用过它之后你就不会再想用别的同类 ...
分类:
编程语言 时间:
2019-08-27 19:11:18
阅读次数:
80
分词器是用来实现分词的,从一串文本当中切分出一个一个的单词(词条),并对每个词条进行标准化处理(大小写、单复数、同义词等转换)。分词器包括3部分: 1、character filter:分词之前的预处理,过滤掉html标签,特殊符号转换等。 2、tokenizer:分词, 3、token filte ...
分类:
其他好文 时间:
2019-08-24 18:20:07
阅读次数:
83
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 ...
分类:
其他好文 时间:
2019-08-22 01:13:57
阅读次数:
242
一、前言 为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。 二、IK分词器的安装和使用 2.1、安装ik 我们可以从官方github上下载该插件,我们下载对应于我们使用的e ...
分类:
其他好文 时间:
2019-08-21 00:03:11
阅读次数:
114
1,下载插件压缩包(本地测试建议用迅雷下,生产用的绝对不要用迅雷下),链接地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v7.3.0 2,在 elasticsearch-7.3.0\plugins 目录下新建一个 ...
通用爬虫和聚焦爬虫 一、通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 二、通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网 ...
分类:
其他好文 时间:
2019-08-19 22:44:08
阅读次数:
102
汉字是智慧和想象力的宝库。 ——索尼公司创始人井深大 简介 在英语中,单词就是“词”的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定。例如:南京市长江大桥,可以分词为:“南京市/长江/大桥”和“南京市长/江大桥”,这个 ...
分类:
其他好文 时间:
2019-08-11 17:14:13
阅读次数:
129