码迷,mamicode.com
首页 >  
搜索关键字:词语    ( 1170个结果
文本向量化(理论篇)
本文介绍常见的文本表示模型,One-hot、词袋模型(BOW)、TF-IDF、N-Gram和Word2Vec 一、离散表示 1、One-hot编码 One-hot编码是非常用的方法,我们可以用One-hot编码的方式将句子向量化,大致步骤为: 用构造文本分词后的字典 对词语进行One-hot编码 J ...
分类:其他好文   时间:2019-09-05 22:57:26    阅读次数:1878
词向量技术原理及应用详解(一)
文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。在自然语言处理研究领域,文本向量化是文本表示的一种重要方式。 顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论中文还是英文,词语都是表达文本处理的最基本单元。 当前阶段,对文本向量化都是通过 ...
分类:其他好文   时间:2019-08-24 22:32:52    阅读次数:100
jieba:我虽然结巴,但是我会分词啊
介绍 分词 python 添加自定义词典 python 自定义的词典格式如下: 词语 词频(可省略) 词性(可省略) 至于词频和词性后面会说 自定义一个1.txt文件,里面包含内容如下 python 除此之外,还可以不用通过加载文件的方式来加载词典 python 关键词提取 jieba 提供了两种关 ...
分类:其他好文   时间:2019-08-22 17:20:49    阅读次数:106
190821——彼岸无岸
分享一篇不知道在哪里看到的文章,略带感伤,却也让人感受到一种无法言说的美好。 有两个目的: 1.看能否找到这篇文章的出处; 2.用一个词语来描述这篇文章; 闭眼,听周围喧嚣。不明意义的声音,与我无关。触目荒凉,不如不见。时间,脚步轻移。这一刻的信誓旦旦,下一秒,会不会如冰雪般消融?无解的问题。这样的 ...
分类:其他好文   时间:2019-08-22 00:42:12    阅读次数:89
简历造假,你以为我不知道?
本文共:3495字,预估阅读时间:9分钟 前言 上到职场干将下到职场萌新,都会接触到包装简历这个词语。当你简历投到心仪的公司,公司内负责求职的工作人员是如何甄别简历的包装程度的?Coody老师根据自己的经验写下了这篇文章,谁都不是天才,包装无可厚非,切勿对号入座! 正文 在互联网极速膨胀的社会背景下 ...
分类:其他好文   时间:2019-08-16 00:21:09    阅读次数:82
NLP(十三)中文分词工具的使用尝试
  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。   首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分型模型 。在用户字典中添加以下5个词语: 经 少安 ...
分类:其他好文   时间:2019-08-03 17:33:11    阅读次数:141
hanlp自然语言处理包的人名识别代码解析
HanLP发射矩阵词典nr.txt中收录单字姓氏393个。袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色,其他词语去掉其姓氏角色状态。过滤后,nr.txt中具有姓氏角色的单字共计97个。列于下表:丁万乔于任何余侯傅冯刘卢史叶吕吴周唐夏姚姜孔孙孟宋尹崔常康廖张彭徐戴方易曹曾朱李
分类:编程语言   时间:2019-08-02 11:04:47    阅读次数:119
拜托,别再问我 QPS、TPS、PV、UV、GMV、IP、RPS 好吗?
关于 QPS、TPS、PV、UV、GMV、IP、RPS 这些词语,看起来好像挺专业。但实际上,我认为是这是每个程序员必懂的知识点了,你可以搞不懂它们怎么计算的,但是你最少要知道它们分别代表什么意思吧?! QPS QPS:全名 Queries Per Second,意思是“每秒查询率”,是一台服务器每 ...
分类:其他好文   时间:2019-07-23 17:30:24    阅读次数:119
7.19 wordcloud库的基本介绍
[TOC] 7.19 wordcloud库的基本介绍 wordcloud概述 词云以词语为基本单位,更加直观和艺术的展示文本 基本使用 wordcloud库把词云当作一个WordCloud对象 wordcloud.WordCloud()代表一个文本对应的词云 可以根据文本中词语出现的频率等参数绘制词 ...
分类:其他好文   时间:2019-07-19 21:01:47    阅读次数:115
R语言进行网站评论文本数据挖掘聚类
对于非结构化的网站中文评论信息,r的中文词频包可能是用来挖掘其潜在信息的好工具,要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直观清晰。 比如对于如 ...
分类:编程语言   时间:2019-07-19 19:16:30    阅读次数:251
1170条   上一页 1 ... 33 34 35 36 37 ... 117 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!