码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
python+flask+mongodb+whoosh实现自己的搜索引擎(一):目录
python+flask+jieba+mongodb+whoosh实现自己的搜索引擎 一、目录 二、基于python的爬虫 三、网页去燥,URL去重 四、基于mongodb的数据存储 五、基于whoosh的全文搜索 六、基于flask的web应用 ...
分类:数据库   时间:2016-04-14 06:45:02    阅读次数:1040
基于python的tagcloud
setp1: 安装jieba,pytagcloud pip install jieba apt-get install python-pygame pip install simplejson pip install pytagcloud step2:下载中文字体文件比如simhei.ttf 找到p ...
分类:编程语言   时间:2016-03-31 12:29:42    阅读次数:361
asdfsadfs
# -*- coding:utf8 -*- import os import jieba.posseg as pseg # -*- coding:utf8 -*- import os  def splitSentence(inputFile,name):     fin = open(inputFi
分类:其他好文   时间:2016-03-13 22:28:34    阅读次数:219
[python] 使用Jieba工具中文分词及文本聚类概念
这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文...
分类:编程语言   时间:2015-12-18 06:49:30    阅读次数:8948
计算文章TF-IDF
#coding:utf-8import jiebaimport jieba.analyse #计算tf-idf需要调用此模块jieba.analysestopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').re...
分类:其他好文   时间:2015-12-02 20:35:57    阅读次数:237
提取频率较高的关键词
通过jieba分词,提取频率较高的关键词。 import?jieba.analyse strx?=?‘网络让我们之间的距离变的如此之近,也同时让我们变的如此遥远。世界上最远的距离不是南极到北极,也不是喜马拉雅之巅到马里亚纳之渊;而...
分类:其他好文   时间:2015-11-09 19:26:26    阅读次数:190
veterbi
#!usr/bin/python#coding=utf-8import urllib2import sys, time, reimport sysimport jiebajieba.load_userdict("userdict.txt")import jieba.analyseimport jie...
分类:其他好文   时间:2015-09-27 21:29:24    阅读次数:315
.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)
简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。.NET平台上常见的分词组件是盘古分词,但是已经好久没有更...
分类:Web程序   时间:2015-09-11 00:13:39    阅读次数:546
(转)jieba中文分词的.NET版本:jieba.NET
简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。.NET平台上常见的分词组件是盘古分词,但是已经好久没有更...
分类:Web程序   时间:2015-09-09 09:47:17    阅读次数:256
中文分词
jieba中文分词的.NET版本:jieba.NET2015-09-08 20:05 by Anders Cui,191阅读,3评论,收藏,编辑简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,...
分类:其他好文   时间:2015-09-09 01:04:41    阅读次数:507
462条   上一页 1 ... 43 44 45 46 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!