搜索关键字：语言模型，搜索到216个结果！码迷,mamicode.com！

win10下安装Cygwin配置gcc编译环境

首先要说明的是，我个人安装cygwin的用途是为了使用kenlm工具训练通及语言模型。注：统计语言模型工具有比较多的选择，目前比较好的有srilm以及kenlm，其中kenlm比srilm晚出来，训练速度也更快，而且支持单机大数据的训练。因为使用该工具在Linux环境下比较方便，我是win10系 ...

分类：Windows程序时间：2019-04-21 14:27:09 阅读次数：454

自然语言处理（NLP）——语言模型预训练方法（ELMo、GPT和BERT）

1. 引言在介绍论文之前，我将先简单介绍一些相关背景知识。首先是语言模型（Language Model），语言模型简单来说就是一串词序列的概率分布。具体来说，语言模型的作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性。在实践中，如果文本的长度较长，P(wi | w1, w2, ...

分类：编程语言时间：2019-04-19 12:02:30 阅读次数：198

Reading Level Assessment Using Support Vector Machines and Statistical Language Models-paper

2 reading level assessment 最早：公式，syntactic特征（如句长）之后：概率语言模型（前两个论文），smoothed unigram分类器捕捉词的变化smoothed unigram分类器的Overall Accuracy and Generalization Abi ...

分类：系统相关时间：2018-12-23 12:51:37 阅读次数：224

A Statistical Model for Scientific Readability-paper

monosyllable 单音节词 2. READABILITY METRICS 第一个是个初级中级学习者第二个会比别的给的难度分更高第三个用的更广 unigram语言模型假设生成一个词的概率适合上下文无关的。虽然unigram模型在人类语言上效果不好，但是它们适合很多应用，有可以在小数据上训练 ...

分类：其他好文时间：2018-12-20 18:42:28 阅读次数：149

最强NLP模型-BERT

简介: BERT,全称Bidirectional Encoder Representations from Transformers,是一个预训练的语言模型,可以通过它得到文本表示,然后用于下游任务,比如文本分类,问答系统,情感分析等任务.BERT像是word2vec的加强版,同样是预训练得到词级别 ...

分类：其他好文时间：2018-12-17 17:34:58 阅读次数：326

第二节数学基础与语言学基础

数学基础与语言学基础内容：数学基础：概率论，（从大规模预料中统计较小的语言单位的相关的统计信息，然后运用统计推理技术计算更高一级的语言单位出现的概率）语言学基础实用知识统计自然语言处理的步骤：收集自然语言词汇的分布情况；根据这些分布情况进行统计推导。（最典型的例子：构造统计语言模型）数 ...

分类：编程语言时间：2018-12-08 21:11:09 阅读次数：223

开源OCR识别库-Tesseract介绍

最近在github上面看到一个开源的ocr文字识别库，感觉效果还可以，所以在这里介绍一下，这个项目的原地址在：https://github.com/tesseract-ocr/tesseract。 tesseract库支持你训练自己的文字识别模型，当然其本身已经提供了几十种不同语言模型，你也可以直接 ...

分类：其他好文时间：2018-11-27 14:41:00 阅读次数：233

用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译

摘要：本文讲的是用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等，自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中，仍然存在许多具有挑战性的问题。但是，深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。本文讲的是用深度学习解决自然 ...

分类：编程语言时间：2018-11-19 11:02:11 阅读次数：343

深入了解以太坊虚拟机第5部分——一个新合约被创建后会发生什么

在该系列文章的前部分，我们学了EVM汇编基础，也学了ABI编码是如何允许外部程序与合约进行通信的。在本文中，我们将会学习一个合约是如何从零创建的。本系列的相关文章（按照顺序）： EVM汇编代码的介绍(第1部分) 固定长度数据类型的表示方法(第2部分) 动态数据类型的表示方法(第3部分) ABI编码 ...

分类：其他好文时间：2018-11-15 13:58:00 阅读次数：261

统计分词

思想：把每个词看成是各个字组成，如果相连的字在不同的文本中出现次数越多，相连的字很可能是一个词利用字与字相邻出现的频率反映词的可靠度 buzhou：建立统计语言模型对句子进行单词划分，然后对划分结果进行概率计算，获得最大概率的分词方式语言模型：长度为m的字符串确定其概率分布为P(w1,w ...

分类：其他好文时间：2018-11-07 18:16:34 阅读次数：191

共216条上一页 1 ... 5 6 7 8 9 ... 22 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)