1、HanlP安装 pip install pyhanlp 2、使用 # -*- coding:utf-8 -*- from pyhanlp import * content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。" print(HanLP. ...
分类:
编程语言 时间:
2020-04-19 11:09:38
阅读次数:
84
讲授自然语言处理简介、RNN解决NLP问题的一般思路、中文分词、词性标注、命名实体识别、文本分类、机器翻译等具体问题。 大纲 自然语言处理简介RNN在NLP中的应用简介中文分词词性标注命名实体识别文本分类机器翻译 本集内容简介 这节课 ...
分类:
其他好文 时间:
2020-02-22 11:42:07
阅读次数:
53
在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。
———————... ...
分类:
其他好文 时间:
2020-02-11 13:14:01
阅读次数:
105
概念 统计语言模型是NLP的基础,是描述自然语言内在的规律的数学模型。广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注等。 简单地说,统计语言模型就是给定一个句子W(由多个单词w1,w2,w3...组成),计算该句子可信(合理)的概率的模型,即$P(W)=P(w_1,w_2,w_ ...
分类:
编程语言 时间:
2020-02-07 16:29:54
阅读次数:
63
词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。 对于输入句子: The Fulton County Grand Jury said Fr ...
分类:
编程语言 时间:
2020-01-22 18:32:15
阅读次数:
92
一、ERNIE安装配置类问题Q1:最适合ERNIE2.0的PaddlePaddle版本是?A1:PaddlePaddle版本建议升级到1.5.0及以上版本。Q2:ERNIE可以在哪些系统上使用?A2:优化后各个系统都会支持,目前建议在Linux系统使用。二、ERNIE使用类问题Q1:ERNIE目前能做哪些任务?A1:(1)基于ERNIE模型Fine-tune后,直接能做的任务如下:?词性标注任务,
分类:
其他好文 时间:
2019-11-13 19:16:00
阅读次数:
108
[TOC] 简介 序列标注(Sequence Tagging)是一个比较简单的NLP任务,但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。 对于分词相信看过之前博客的朋友都不陌生了,实际上网上已经有很多开 ...
分类:
其他好文 时间:
2019-10-04 16:35:36
阅读次数:
126
作者:尘心链接:https://zhuanlan.zhihu.com/p/76003775 简述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本 ...
分类:
其他好文 时间:
2019-08-04 15:17:22
阅读次数:
123
自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。推荐学习自然语言处理的一本综合学习指南《精通Python自然语言处理》,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分 ...
分类:
编程语言 时间:
2019-06-04 19:34:56
阅读次数:
158
最近发现了snownlp这个库,这个类库是专门针对中文文本进行文本挖掘的。 主要功能: 中文分词(Character-Based Generative Model) 词性标注(TnT 3-gram 隐马) 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决) 文本 ...
分类:
其他好文 时间:
2019-05-12 21:23:58
阅读次数:
211