之前在实习时,Boss想利用情感分析实现“公司绩效考核”问题,即从Boss对员工的评语中判断该员工该月的绩效值,属情感分析领域。 当时使用最简单的基于情感词典的方法解决,借鉴了这篇文章,在此基础上对其进行修改,先讲思路描述如下。 1 词典准备 情感词典(BosonNLP情感词典) 停用词典 否定词典 ...
分类:
其他好文 时间:
2018-11-08 18:29:54
阅读次数:
856
# 1、统计分词词典,确定词典中最长词条的字符m;# 2、从左向右取待切分语句的m个字符作为匹配字段,查找词典,如果匹配成功,则作为一个切分后的词语,# 否则,去掉待匹配字符的最后一个继续查找词典,重复上述步骤直到切分出所有词语。dictA = ['南京市', '南京市长', '长江大桥', '大桥 ...
分类:
其他好文 时间:
2018-11-06 17:43:17
阅读次数:
190
马尔科夫链是一种随机模型,能根据先前的事件单独预测一个时间。 用马尔科夫链生成文本也是采用了相同的理念,努力找到一个词出现在另一个词后面的概率。 代码包含两部分,一个用来训练,一个用来生成 #生成器部分包含一个循环。它首先会选取一个随机的起始词并将其添加至一个列表,然后会在词典中所搜包含潜在跟随词的 ...
分类:
其他好文 时间:
2018-11-04 21:52:56
阅读次数:
263
nil是什么 相信写过Golang的程序员对下面一段代码是非常非常熟悉的了: 当出现不等于nil的时候,说明出现某些错误了,需要我们对这个错误进行一些处理,而如果等于nil说明运行正常。那什么是nil呢?查一下词典可以知道,nil的意思是无,或者是零值。零值,zero value,是不是有点熟悉?在 ...
分类:
编程语言 时间:
2018-11-04 00:30:51
阅读次数:
212
Wording Embedding 1. word2vec 基于只含有一个隐层的神经网络,隐层的节点数就是embedding的维度。并提出了CBOW和Skip Grams这两种语言模型。并针对词典过大而导致计算softmax分母复杂度太高的问题提出了Hierarchical Softmax和 Neg ...
分类:
编程语言 时间:
2018-11-03 11:21:45
阅读次数:
162
查看mysql库中所有表的大小和记录数 结果: + + + + + + +| TABLE_NAME | DATA_LENGTH | INDEX_LENGTH | length | TABLE_ROWS | total_size |+ + + + + + +| log | 959226404 | 93 ...
分类:
数据库 时间:
2018-10-31 11:21:02
阅读次数:
142
在进行网络推行的时,假如进步了网络推行的展现,再辅助以较好的构思,即使用户没有点击,也做了一个较多的宣扬效果,因而呢,进步网络推行的展现,不仅仅是进步转化的根底,也是进行广告宣扬的一个手法。 这两年移动信息流广告好火啊,拿出你的手机查看下,腾讯视频、爱奇艺、优酷有么?今天头条、网易新闻、腾讯新闻、搜狐新闻、新浪下了吗?UC、QQ、猎豹百度浏览器总有一个吧,还有微博、陌陌、QQ音乐、有道词典、
分类:
其他好文 时间:
2018-10-30 18:45:57
阅读次数:
171
Unsupervised NMT 概述 神经机器翻译系统取得了很好的翻译水平,但非常依赖于平行语料。目前已经有利用大量单语数据训练模型的研究,这其中包括: 仅仅由两份单语语料(不平行)训练出双语词典。这个的核心是学习一个旋转矩阵 W ,使得两份语料的词向量空间对齐,再进行一些调整更好的对齐两词向量空 ...
分类:
系统相关 时间:
2018-10-17 00:16:29
阅读次数:
1120
用户在使用搜索引擎过程中,由于表述不清晰或者查询词与索引库描述不一致,为了能召回更多更优质的结果展示给用户。这时就需要对用户查询进行分析,包括词权、同义词、纠错等技术,对原查询进行处理。通常搜索引擎中对同义词的处理,线下挖掘同义词词典,线上加载词典,但由于检索系统应用同义词时词典存在部分质量不好、或 ...
分类:
其他好文 时间:
2018-10-16 22:09:09
阅读次数:
2101
Word translation without parallel data ...
分类:
系统相关 时间:
2018-10-11 12:18:34
阅读次数:
386