python+flask+jieba+mongodb+whoosh实现自己的搜索引擎 一、目录 二、基于python的爬虫 三、网页去燥,URL去重 四、基于mongodb的数据存储 五、基于whoosh的全文搜索 六、基于flask的web应用 ...
分类:
数据库 时间:
2016-04-14 06:45:02
阅读次数:
1040
setp1: 安装jieba,pytagcloud pip install jieba apt-get install python-pygame pip install simplejson pip install pytagcloud step2:下载中文字体文件比如simhei.ttf 找到p ...
分类:
编程语言 时间:
2016-03-31 12:29:42
阅读次数:
361
# -*- coding:utf8 -*- import os import jieba.posseg as pseg # -*- coding:utf8 -*- import os def splitSentence(inputFile,name): fin = open(inputFi
分类:
其他好文 时间:
2016-03-13 22:28:34
阅读次数:
219
这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文...
分类:
编程语言 时间:
2015-12-18 06:49:30
阅读次数:
8948
#coding:utf-8import jiebaimport jieba.analyse #计算tf-idf需要调用此模块jieba.analysestopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').re...
分类:
其他好文 时间:
2015-12-02 20:35:57
阅读次数:
237
通过jieba分词,提取频率较高的关键词。 import?jieba.analyse
strx?=?‘网络让我们之间的距离变的如此之近,也同时让我们变的如此遥远。世界上最远的距离不是南极到北极,也不是喜马拉雅之巅到马里亚纳之渊;而...
分类:
其他好文 时间:
2015-11-09 19:26:26
阅读次数:
190
#!usr/bin/python#coding=utf-8import urllib2import sys, time, reimport sysimport jiebajieba.load_userdict("userdict.txt")import jieba.analyseimport jie...
分类:
其他好文 时间:
2015-09-27 21:29:24
阅读次数:
315
简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。.NET平台上常见的分词组件是盘古分词,但是已经好久没有更...
分类:
Web程序 时间:
2015-09-11 00:13:39
阅读次数:
546
简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。.NET平台上常见的分词组件是盘古分词,但是已经好久没有更...
分类:
Web程序 时间:
2015-09-09 09:47:17
阅读次数:
256
jieba中文分词的.NET版本:jieba.NET2015-09-08 20:05 by Anders Cui,191阅读,3评论,收藏,编辑简介平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,...
分类:
其他好文 时间:
2015-09-09 01:04:41
阅读次数:
507