网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于pycurl)。 pycurl – 网络库(绑定libcurl)。 urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。 httplib2 – 网络库。 R ...
分类:
其他好文 时间:
2017-06-04 20:00:47
阅读次数:
435
背景知识: (1)tf-idf 按照词TF-IDF值来衡量该词在该文档中的重要性的指导思想:如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。 tf–idf is the product of two statistics, term fre ...
分类:
其他好文 时间:
2017-06-04 17:07:33
阅读次数:
450
1.空查询 2.查询表达式 DSL只需将查询语句传递给 query 参数 查询全部 match_all 跟空查询等价 针对某个字段,结构 3.查询与过滤 查询:一个评分的匹配,计算相似度 过滤:一个不评分的匹配,只有是或否。过滤的性能更好。 4.重要字段 match_all:匹配所有 match:全 ...
分类:
其他好文 时间:
2017-06-04 16:55:58
阅读次数:
443
# -*- coding: utf-8 -*- import gensim # 导入模型 model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True) # 得到两组词的相似度 list1 = [... ...
分类:
其他好文 时间:
2017-05-31 12:10:24
阅读次数:
798
记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯定是要考虑hash算法,相同字符串的hashcode肯定相同,不同字符串的hashcode却是大不相 ...
分类:
编程语言 时间:
2017-05-29 22:22:44
阅读次数:
347
聚类的定义:聚类分析将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类,在同一类内对象之间具有较高的相似度,不同类之间的对象差别较大。 层次聚类法: ...
分类:
其他好文 时间:
2017-05-29 21:05:15
阅读次数:
130
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设 ...
分类:
其他好文 时间:
2017-05-29 13:37:27
阅读次数:
183
SparkMLlib聚类学习之KMeans聚类 (一),KMeans聚类 k均值算法的计算过程非常直观: 1、从D中随机取k个元素,作为k个簇的各自的中心。 2、分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇。 3、根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中 ...
分类:
其他好文 时间:
2017-05-25 22:11:13
阅读次数:
289
python工具包-pyssim 简介 python工具包,用来计算图像之间的结构相似性 (Structural Similarity Image Metric: SSIM)。结构相似性介绍详见:https://zh.wikipedia.org/wiki/%E7%B5%90%E6%A7%8B%E7% ...
分类:
其他好文 时间:
2017-05-23 12:13:23
阅读次数:
7364
http://blog.csdn.net/chencheng126/article/details/50070021 参考于这个博主的博文。 原理 1、文本相似度计算的需求始于搜索引擎。 搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。 2、主要使用 ...
分类:
编程语言 时间:
2017-05-21 19:40:52
阅读次数:
370