基于大规模语料的新词发现算法 https://blog.csdn.net/xgjianstart/article/details/52193258 互联网时代的社会语言学:基于SNS的文本数据挖掘 http://www.matrix67.com/blog/archives/5044 ...
分类:
其他好文 时间:
2019-01-11 21:16:33
阅读次数:
213
酒店搜索跟传统的搜索排序存在很多不一样的地方,酒店搜索业务具备独有的业务特点,本文分享了深度学习在酒店搜索NLP中的应用,并重点介绍了深度学习排序模型在美团酒店搜索的演进路线。 ...
分类:
其他好文 时间:
2019-01-11 13:40:54
阅读次数:
170
本书从各个方面着手,帮助读者理解NLP的过程,提供了各种实战场景,结合现实项目背景,帮助读者理解NLP中的数据结构和算法以及目前主流的NLP技术与方法论,结合信息检索技术与大数据应用等流行技术,终完成对NLP的学习和掌握。 ——黄英阿里巴巴达摩院高级算法专家 目前市面上的NLP书籍,要么是针对研究人员的偏理论性的教科书,要么是针对资深工程师进一步深入了解NLP技术的高级读物。为了填补这一空白,
分类:
编程语言 时间:
2019-01-08 10:13:06
阅读次数:
2152
课程: 6.891 (Fall 2003): Machine Learning Approaches for Natural Language Processing http://www.ai.mit.edu/courses/6.891-nlp/ CS 276 / LING 286 Informat ...
分类:
编程语言 时间:
2019-01-06 15:37:01
阅读次数:
305
问题 接口测试中遇到参数需要加密的情况,如登录、修改密码。 现有2个接口: 登录接口,Post接口,password加密,参数类型body; 修改密码接口,Get接口,orderPassword、newPassword加密,参数类型query; 以上参数都使用RAS进行加密。 在请求过程中发现以下问 ...
分类:
其他好文 时间:
2019-01-06 14:29:52
阅读次数:
233
1. 前言 2018年最火的论文要属google的BERT,不过今天我们不介绍BERT的模型,而是要介绍BERT中的一个小模块WordPiece。 2. WordPiece原理 现在基本性能好一些的NLP模型,例如OpenAI GPT,google的BERT,在数据预处理的时候都会有WordPiec ...
分类:
其他好文 时间:
2019-01-05 00:51:16
阅读次数:
4019
详解短语结构文法和依存结构http://www.hankcs.com/nlp/cs224n-dependency-parsing.html 详解transition-based和gragh-based https://www.cnblogs.com/zeze/p/9752734.html 基于转移的 ...
分类:
其他好文 时间:
2019-01-04 14:57:39
阅读次数:
168
数据库 IO类 统计类 描述性统计 回归(包括统计和机器学习) 假设检验 时间序列 生存分析 机器学习类 分类器 LDA、QDA SVM(支持向量机) 基于临近 贝叶斯 决策树 Assemble方法 聚类 关联规则 神经网络 概率图模型 文本、NLP 基本操作 主题模型 与其他分析/可视化/挖掘/报 ...
分类:
编程语言 时间:
2019-01-03 22:37:25
阅读次数:
522
在上一节《Tokenization - NLP(1)》的学习中,我们主要学习了如何将一串字符串分割成单独的字符,并且形成一个词汇集(vocabulary),之后我们将形成的词汇集合转换成计算机可以处理的数字信息,以方便我们做进一步文本分析。这篇博客的主题还是我们如何将文本转成成更有用的成分,让我们能 ...
分类:
其他好文 时间:
2019-01-02 14:59:01
阅读次数:
201
哈希表在查找方面有非常大应用价值,本文记录一下利用哈希散列表来统计文本文件中每个单词出现的重复次数,这个需求当然用NLP技术也很容易实现。 一、基本介绍 1、Hash Key值:将每个单词按照字母组成通过一个乘子循环运算得出一个小于29989的整数,29989是一个比较大的质数。0~29989即为K ...
分类:
其他好文 时间:
2019-01-01 21:46:17
阅读次数:
271