码迷,mamicode.com
首页 >  
搜索关键字:语言模型    ( 216个结果
win10下安装Cygwin配置gcc编译环境
首先要说明的是,我个人安装cygwin的用途是为了使用kenlm工具训练通及语言模型。 注:统计语言模型工具有比较多的选择,目前比较好的有srilm以及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。 因为使用该工具在Linux环境下比较方便,我是win10系 ...
分类:Windows程序   时间:2019-04-21 14:27:09    阅读次数:454
自然语言处理(NLP)——语言模型预训练方法(ELMo、GPT和BERT)
1. 引言 在介绍论文之前,我将先简单介绍一些相关背景知识。首先是语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。在实践中,如果文本的长度较长,P(wi | w1, w2, ...
分类:编程语言   时间:2019-04-19 12:02:30    阅读次数:198
Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper
2 reading level assessment 最早:公式,syntactic特征(如句长)之后:概率语言模型(前两个论文),smoothed unigram分类器捕捉词的变化smoothed unigram分类器的Overall Accuracy and Generalization Abi ...
分类:系统相关   时间:2018-12-23 12:51:37    阅读次数:224
A Statistical Model for Scientific Readability-paper
monosyllable 单音节词 2. READABILITY METRICS 第一个是个初级中级学习者 第二个会比别的给的难度分更高 第三个用的更广 unigram语言模型假设生成一个词的概率适合上下文无关的。虽然unigram模型在人类语言上效果不好,但是它们适合很多应用,有可以在小数据上训练 ...
分类:其他好文   时间:2018-12-20 18:42:28    阅读次数:149
最强NLP模型-BERT
简介: BERT,全称Bidirectional Encoder Representations from Transformers,是一个预训练的语言模型,可以通过它得到文本表示,然后用于下游任务,比如文本分类,问答系统,情感分析等任务.BERT像是word2vec的加强版,同样是预训练得到词级别 ...
分类:其他好文   时间:2018-12-17 17:34:58    阅读次数:326
第二节 数学基础与语言学基础
数学基础与语言学基础内容: 数学基础:概率论,(从大规模预料中统计较小的语言单位的相关的统计信息,然后运用统计推理技术计算更高一级的语言单位出现的概率) 语言学基础 实用知识 统计自然语言处理的步骤: 收集自然语言词汇的分布情况; 根据这些分布情况进行统计推导。(最典型的例子:构造统计语言模型) 数 ...
分类:编程语言   时间:2018-12-08 21:11:09    阅读次数:223
开源OCR识别库-Tesseract介绍
最近在github上面看到一个开源的ocr文字识别库,感觉效果还可以,所以在这里介绍一下,这个项目的原地址在:https://github.com/tesseract-ocr/tesseract。 tesseract库支持你训练自己的文字识别模型,当然其本身已经提供了几十种不同语言模型,你也可以直接 ...
分类:其他好文   时间:2018-11-27 14:41:00    阅读次数:233
用深度学习解决自然语言处理中的7大问题,文本分类、语言建模、机器翻译
摘要: 本文讲的是用深度学习解决自然语言处理中的7大问题,文本分类、语言建模、机器翻译等,自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中,仍然存在许多具有挑战性的问题。但是,深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。 本文讲的是用深度学习解决自然 ...
分类:编程语言   时间:2018-11-19 11:02:11    阅读次数:343
深入了解以太坊虚拟机第5部分——一个新合约被创建后会发生什么
在该系列文章的前部分,我们学了EVM汇编基础,也学了ABI编码是如何允许外部程序与合约进行通信的。在本文中,我们将会学习一个合约是如何从零创建的。 本系列的相关文章(按照顺序): EVM汇编代码的介绍(第1部分) 固定长度数据类型的表示方法(第2部分) 动态数据类型的表示方法(第3部分) ABI编码 ...
分类:其他好文   时间:2018-11-15 13:58:00    阅读次数:261
统计分词
思想: 把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词 利用字与字相邻出现的频率反映词的可靠度 buzhou: 建立统计语言模型 对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式 语言模型: 长度为m的字符串确定其概率分布为P(w1,w ...
分类:其他好文   时间:2018-11-07 18:16:34    阅读次数:191
216条   上一页 1 ... 5 6 7 8 9 ... 22 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!