【引言】
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断 它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新 元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用...
分类:
编程语言 时间:
2015-02-04 12:56:17
阅读次数:
214
摘要 之前一直使用默认的parse入口,以及SgmlLinkExtractor自动抓取url。但是一般使用的时候都是需要自己写具体的url抓取函数的。 python 爬虫 scrapy scrapy提高 最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直...
分类:
编程语言 时间:
2015-02-04 09:16:30
阅读次数:
1361
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图...
分类:
编程语言 时间:
2015-02-03 10:43:59
阅读次数:
241
通过爬虫识别网站页面多线程可控制线程的最大数量可控制爬虫爬取的页面可忽略指定文件扩展名可设置GET、POST方式支持SSL支持代理支持google搜索的站点列表支持bing搜索的站点列表支持扩展插件(动态测试、静态测试、压力测试)多语言支持支持GUI界面目录检查,类似wwwscan,可发..
分类:
Web程序 时间:
2015-02-02 16:13:04
阅读次数:
236
Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收.....
分类:
其他好文 时间:
2015-02-01 14:42:52
阅读次数:
172
没有那么难的,嘿嘿,说起来呢其实挺简单的,或者不能叫爬虫,只需要将自己的数据加载到程序里再进行解析就可以了,如果说你的Qzone是向所有人开放的,那么就有一个JSONP的接口,这么说来就简单了,也就不用我们再利用phantomjs,缓慢的爬了。其实程序还没有做的太过完美,只是简单地可以打印出来说说的...
分类:
数据库 时间:
2015-02-01 12:04:45
阅读次数:
210
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使...
分类:
编程语言 时间:
2015-01-31 07:05:41
阅读次数:
327
做图像处理的朋友,都时常需要收集整理大量的图像数据集。做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务。为了用python完成这个任务,需要解决如下两个问题:
1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片。
2. 动态网站的内容往往是通过aj...
分类:
编程语言 时间:
2015-01-31 00:34:34
阅读次数:
860
上一篇博文介绍了如何用selenium+python在诸如soso、谷歌、好搜等搜索引擎上爬取图片的方法,但是却没用提到百度,因为百度的情况比较特殊。首先,百度图片的数据更好,因为每幅图片都有“data-desc”描述可以作为图像很好的语义标签,此外基于百度较强的技术其查询搜索得到的图片相关性较高,后续人工筛选工作较少;其次,百度图片的数据不容易爬取,如果像前一篇文章中的方法取img标签的src值...
分类:
编程语言 时间:
2015-01-31 00:27:51
阅读次数:
633
这是我实现的第一个版本的爬虫,局限比较大,用的算法思想也比较简单。不过通过爬虫1号,我对爬虫和搜索引擎实现机制有了更多的认识,收获还是挺大的^_^,涂鸦之作,我不知道别人如何实现的,就按自己的想法写了个,大家有兴趣可以看看,用java实现的
这是工程目录:
下面是具体代码:
package com.rgy.reptile;
import com.rgy.utils.PageUtil...
分类:
其他好文 时间:
2015-01-30 22:51:46
阅读次数:
266