码迷,mamicode.com
首页 > 其他好文 > 详细

【NLP-00-1】NLP简述

时间:2020-05-24 23:52:29      阅读:90      评论:0      收藏:0      [点我收藏+]

标签:mod   词性标注   model   word   段落   不可   计算   --   hit   

目录

  1. NLP基本流程
  2. NLP应用场景
  3. NLP技术流

一、自然语言处理的基本流程

  1. 分词
  2. 命名实体识别,主要有人名,地名,机构名等
  3. 词性标注,对分词后的词语进行语义标注
  4. 句法分析,主要是要构建语法树,标注单词,短语,句子的语法
  5. 语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,主要是要标出一个句子中主谓宾状语等。语义角色标注过于依赖句法分析的准确性,不过目前自动句法分析的准确性并不是特别高,因此语义角色标注的效果也一般。
  6. 篇章分析,在一篇文章中段落的顺序、句子的顺序都是很重要的,按照正确的表达序列排序才能构成完整的篇章。在篇章分析中可以划分的结构有篇章-段落-句子-词、篇章-句子-词、篇章-词等。

上面的六步只不过是自然语言处理中的中间步骤,并不是自然语言处理的最终目标

二、自然语言处理的应用场景

  1. 序列标注:比如中文分词,词性标注,命名实体识别,语义角色标注等
  2. 分类任务:文本分类和情感计算
  3. 句子关系判断:QA,Entailment/自然语言推理 信息检索 人机对话系统,它的特点是给定两个句子,模型判断出两个句子是否具备某种语义关系
  4. 生成式任务:比如机器翻译,文本摘要,写诗造句,看图说话等都属于这一类。它的特点是输入文本内容后,需要自主生成另外一段文字。

------------------------------以下详细介绍-------------------------------------

2.1 序列标注

序列标注问题包括自然语言处理中的分词,词性标注(POS tagging)、命名实体识别,关键词抽取,词义角色标注等等,具体可参考: https://blog.csdn.net/qq_40136685/article/details/90634006

2.2 分类任务

文本分类和情感计算

  1. 垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件
  2. 情感分析:2分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类。
  3. 新闻主题分类:判断一段新闻属于哪个类别,如财经、体育、娱乐等。根据类别标签的数量,可以是2分类也可以是多分类。
  4. 自动问答系统中的问句分类
  5. 社区问答系统中的问题分类:多标签多分类(对一段文本进行多分类,该文本可能有多个标签),如知乎看山杯
  6. 让AI做法官:基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签多分类)
  7. 判断新闻是否为机器人所写:2分类

2.3 句子关系判断

QAEntailment/自然语言推理 信息检索 人机对话系统

2.4 生成式任务

机器翻译,语音翻译、文本摘要与信息抽取

三、NLP技术流

TFIDF & BM25,用于进行文档表示的扛鼎之作,所有信息检索和搜索引擎的基础。

NGram,统计语言模型的标准算法,增加了多尺度的探索。

HMM,序列标注、语言模型曾经的主流算法。

Topic Models,包括LSA、pLSA、LDA等隐含主题模型,可以说是2000-2010间火了十多年的范式。

IBM Model,1990年代统计机器翻译时代的扛鼎之作,利用大规模对齐文本学习词对齐模型,算法也很巧妙,即使现在仍值得拜读。

CRF,条件随机场是解决序列标注的主流模型,在中文分词、词性标注、实体识别等任务直到现在仍然是标准模型。

word2vec,包括Skipgram和CBOW,2013年引爆NLP深度学习浪潮的里程碑算法,引领2013-2016年的词表示学习研究热潮。我还特别喜欢基于word2vec,哈工大师生做的那篇ACL 2014用于上下位关系抽取的扩展工作,非常NLP的研究方法,值得推荐。

RNN & LSTM,神经网络语言模型的代表作,将语言马尔科夫性与神经网络有机融合,影响巨大。

Attention,神经网络用于自然语言处理不可或缺的重要机制,解决长程依赖的灵丹妙药。基于此延展Transformer和其应用:GPTBERT,和Transformer

BERT,简单粗暴有效,2018年引起自然语言处理预训练语言模型浪潮。

--来自知乎的回答,觉得有一定道理,故粘贴过来了。后续也基于这些进行学习。

【NLP-00-1】NLP简述

标签:mod   词性标注   model   word   段落   不可   计算   --   hit   

原文地址:https://www.cnblogs.com/yifanrensheng/p/12953171.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!