修改配置文件:vim/etc/my.cnf[mysqld]ngram_token_size=2创建表:createtabletest(idint(11)notnullprimarykeyauto_increment,namevarchar(100)notnullcomment‘工商名‘,brandvarchar(100)defaultnullcomment‘品牌名‘,envarchar(100)d
分类:
数据库 时间:
2018-09-26 01:11:04
阅读次数:
771
总览 用途:文本分类 优点:在精度上与深度学习的方法媲美,但更高效,速度快多个数量级。 模型结构 fastText的结构:输入为一个句子的N个词(ngram)的向量表示,训练之前此向量可利用随机数进行初始化,随后将这些词向量加权平均得到对应文本的向量表示;输出为文本对应的标签。此模型结构与CBOW很 ...
分类:
其他好文 时间:
2018-07-12 20:15:49
阅读次数:
168
Learning to Personalize Query Auto-Completion 样本 正例用用户的sug点击,其余是负例 特征 用户历史特征: query历史频次,候选和用户历史输入的ngram相似度 历史分短期(同一个session),长期(所有历史) 人口特征: 分年龄搜索频次,性别 ...
分类:
其他好文 时间:
2018-07-10 20:11:43
阅读次数:
189
mysql5.6 innlDB 在CHAR、VARCHAR、TEXT类型的列上可以定义全文索引,但因为无法中文分词所以对中文的支持很差,但从MySQL5.7开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。 在没法升级5.7的情况下,5.6有变 ...
分类:
数据库 时间:
2018-03-20 12:46:48
阅读次数:
295
一、ngram和index-time搜索推荐原理 1、什么是ngram 假设有一个单词:quick,在5种长度下的ngram情况如下: ngram length=1,q u i c k ngram length=2,qu ui ic ck ngram length=3,qui uic ick ngr... ...
分类:
其他好文 时间:
2018-03-08 14:13:16
阅读次数:
148
创建全文索引(FullText index) 创建表的同时创建全文索引 FULLTEXT (name) WITH PARSER ngram 通过 alter table 的方式来添加 alter table `das`.`staff_base` add fulltext index staff_ba ...
分类:
数据库 时间:
2018-03-01 11:44:48
阅读次数:
869
InnoDB全文索引:N-gram Parser【转】 MySql5.7 建立全文索引 InnoDB默认的全文索引parser非常合适于Latin,因为Latin是通过空格来分词的。但对于像中文,日文和韩文来说,没有这样的分隔符。一个词可以由多个字来组成,所以我们需要用不同的方式来处理。在MySQL ...
分类:
数据库 时间:
2018-02-09 20:26:58
阅读次数:
210
http://www.52nlp.cn/fasttext 1条回复 本文首先会介绍一些预备知识,比如softmax、ngram等,然后简单介绍word2vec原理,之后来讲解fastText的原理,并着手使用keras搭建一个简单的fastText分类器,最后,我们会介绍fastText在达观数据的 ...
分类:
其他好文 时间:
2018-01-29 20:16:32
阅读次数:
308
恢复内容开始 出处:https://www.cnblogs.com/iloveai/p/word2vec.html Distributed Representation Ngram本质上是将词当做一个个孤立的原子单元(atomic unit)去处理的。这种处理方式对应到数学上的形式是一个个离散的on ...
分类:
其他好文 时间:
2018-01-28 23:23:27
阅读次数:
300
先看一下语言模型的输出格式 [html] view plain copy \data\ ngram 1=64000 ngram 2=522530 ngram 3=173445 \1-grams: -5.24036 'cause -0.2084827 -4.675221 'em -0.221857 - ...
分类:
编程语言 时间:
2017-08-29 17:15:57
阅读次数:
297