TF-IDF的定义及计算 最近在做一些NLP的研究,由于也是第一次做这个东西,其实还是发现很多有意思的东西。 相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能,比如snowNLP,jieba等,但是我们还是要做到知其然,知其所以然,所 ...
分类:
其他好文 时间:
2020-06-28 09:13:35
阅读次数:
129
1. 实验环境配置 安装IDE :VS Code;安装Python,安装 jieba,hanLP等NLP工具。 简单的程序练习,不需要特别熟练,能在指导下完成操作即可。 做最简单中文分词程序测试环境。 2. 文本可视化:词云、关系图、热力图等 制作词云,进一步了解分词和词频。 https://blo ...
分类:
其他好文 时间:
2020-06-27 00:10:11
阅读次数:
88
何晗:HanLP:面向生产环境的自然语言处理工具包 清华:THULAC:一个高效的中文词法分析工具包 搜狗:搜狗实验室分词和词性标注 斯坦福:CORENLP 哈工大:LTP:语言技术平台(Language Technology Platform) NLPIR:NLPIR 中科大:科大讯飞 云孚科技 ...
分类:
其他好文 时间:
2020-06-26 22:09:35
阅读次数:
413
今天读到一篇KDD2020的论文,感觉很有启发,BERT的预训练在NLP领域已经很成功了,但在图嵌入领域还没有成功的预训练,这篇文章就解决了这个问题。 GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training 代码:htt ...
分类:
其他好文 时间:
2020-06-26 18:35:04
阅读次数:
114
作者:朱晨光 1. 机器阅读理解是什么 机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。近些年 ...
分类:
其他好文 时间:
2020-06-26 18:32:05
阅读次数:
500
内容源自 https://www.aclweb.org/anthology/2020.acl-tutorials.8.pdf 1描述开放域问题回答(QA)是利用大量不同主题的文献来回答问题的任务,是自然语言处理(NLP)、信息检索(IR)中长期存在的一个问题。 及相关领域(沃海等人,1999年;摩尔 ...
分类:
其他好文 时间:
2020-06-26 01:05:10
阅读次数:
147
1.在github上对于jieba的介绍是非常全的,以后一定养成一个看官网的习惯!!学英语啊,学英语 中文分词是中文NLP的第一步,一个优秀的分词系统取决于足够的语料和完善的模型,很多机构和公司也都会开发和维护自己的分词系统,虽然jieba分词的性能并不是最优秀的,但它开源免费、使用简单、功能丰富, ...
分类:
其他好文 时间:
2020-06-25 23:03:03
阅读次数:
59
词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程 分词;词性标注;实体识别 这一部分是NLP的基础,应该是入门就要了解的内容。 所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。 有个注明分词工 ...
分类:
其他好文 时间:
2020-06-25 19:24:50
阅读次数:
59
背景 毕业论文选择了文本处理的情感分析。交了论文的初稿后,导师看了觉得写得不错,希望我冲击一下优秀论文,给我推荐了bert算法让我再去跑一趟。本是第一次接触NLP的我又去看了这个前2年才由谷歌开发出来的算法,简直头皮发麻。在google开源代码的run_classifier.py里添加了自己的Pro ...
分类:
其他好文 时间:
2020-06-25 16:06:01
阅读次数:
205
Natural Language Toolkit http://www.nltk.org/book/ 干货!详述Python NLTK下如何使用stanford NLP工具包 ...
分类:
其他好文 时间:
2020-06-25 09:57:08
阅读次数:
48