搜索关键字：jieba，搜索到462个结果！码迷,mamicode.com！

自然语言处理课程（二）：Jieba分词的原理及实例操作

文章来源：企鹅号 - 一鱼数据文|一鱼数据上节课，我们学习了自然语言处理课程（一）：自然语言处理在网文改编市场的应用，了解了相关的基础理论。接下来，我们将要了解一些具体的、可操作的技术方法。作为小说爱好者的你，是否有设想过通过一些计算机工具对小说做一些有趣的事情呢？阅读本文，你可以了解到如何运 ...

分类：编程语言时间：2018-12-26 19:53:48 阅读次数：196

jieba分词与worldcloud词云

中文分词的优秀库。安装：pip install jieba 主要有三种模式，但是最主要有一个函数模式：精确模式：把文本精确的切分开，不存在冗余单词全模式：把文本中所有可能的词语都扫描出来，有冗余搜索引擎模式：在精确模式上，对长词再次切分函数：jieba.lcut(str)：精确模式，返回一 ...

分类：其他好文时间：2018-12-25 23:42:29 阅读次数：260

词云分析之英文

from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.readline... ...

分类：其他好文时间：2018-12-25 18:14:43 阅读次数：398

jieba 分词简单应用

关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...

分类：其他好文时间：2018-12-15 18:47:29 阅读次数：201

exception2:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd7 in position 0: invalid continuation byte

起因：jieba.load_userdict('C:\\Users\\lim\\Desktop\\dict.txt') 异常描述：由异常描述可知，结巴默认的是使用“utf-8”来打开文件，因此我们需要修改文件的编码属于编码解码的问题，默认的会跟随系统使用GBK，需要修改成UTF-8 首先在文件的 ...

分类：其他好文时间：2018-12-14 13:04:51 阅读次数：156

jieba库基本使用

概述： jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装：pip install jieba import jieba jieba分词的三种模式精确模式：把文本精确的分开，不存在冗余单词全模式：把文本中所有可能的 ...

分类：其他好文时间：2018-12-14 01:00:20 阅读次数：678

django-haystack全文检索

一：使用的工具haystack是django的开源搜索框架，该框架支持Solr,Elasticsearch,Whoosh, *Xapian*搜索引擎，不用更改代码，直接切换引擎，减少代码量。搜索引擎使用Whoosh，这是一个由纯Python实现的全文搜索引擎，没有二进制文件等，比较小巧，配置比较简单 ...

分类：其他好文时间：2018-11-27 14:39:24 阅读次数：229

利用词云图分析热词

1.安装第三方库（matplotlib，jieba，wordcloud，numpy） 1.1安装方法：pip命令在线安装（python3.x默认安装了pip，pip下载地址：https://pypi.python.org/pypi/pip#downloads）已经配置好环境变量前提下，在cmd窗口 ...

分类：其他好文时间：2018-11-26 00:07:13 阅读次数：611

Wordvec_句子相似度

import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word ...

分类：其他好文时间：2018-11-19 12:31:29 阅读次数：189

simhash

#-*- coding: utf-8 -*-import jieba.analyseimport numpy as npdef word_hash(t, w): if int(t)==1: return w else: return -wdef content_hash(t): if float(t ...

分类：其他好文时间：2018-11-16 10:31:02 阅读次数：201

共462条上一页 1 ... 20 21 22 23 24 ... 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)