1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么,就靠你自己去控制它。 比如它在抓取一个网页,在这个网中它发现了一条道路,其实就是指向网页的超链接,那么它就可以爬虫另一张网 ...
分类:
编程语言 时间:
2016-05-22 21:29:14
阅读次数:
173
环境:Mac OSX 终端工具:iTerm2 1. 例 显示baidu源码 2. 有关headers #爬虫中添加headers为了模拟浏览器的工作,否则有的页面不允许直接访问# MacOS下查看headers方法: Chrome:视图-开发者-开发者工具,右侧点击Network,然后单击url(b ...
分类:
编程语言 时间:
2016-05-20 13:12:20
阅读次数:
168
在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的source code里拿到的。 但是对于一些Ajax或动态html, 很多时候要提取的内容是在source code找不到的,这种情况就要想办法把异步或动态加载的内容提取出来。 python中可以使用selenium执行ja ...
分类:
编程语言 时间:
2016-05-20 11:22:37
阅读次数:
240
在上一篇python使用xslt提取网页数据中,要提取的内容是直接从网页的sourcecode里拿到的。但是对于一些Ajax或动态html,很多时候要提取的内容是在sourcecode找不到的,这种情况就要想办法把异步或动态加载的内容提取出来。python中可以使用selenium执行javascript,selenium可以..
分类:
编程语言 时间:
2016-05-19 19:39:00
阅读次数:
231
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf-8 -*-from lxml import etreefrom multiprocessing.du ...
分类:
编程语言 时间:
2016-05-19 14:45:09
阅读次数:
218
公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID。 其中还学会了用Python操作DB2数据库、Python发送邮件、写日志文件、处理浏览器访问限制。 ...
分类:
数据库 时间:
2016-05-19 14:43:05
阅读次数:
274
(1)普通的内容爬取
(2)保存爬取的图片/视频和文件和网页
(3)普通模拟登录
(4)处理验证码登录
(5)爬取js网站
(6)全网爬虫
(7)某个网站的站内所有目录爬虫
(8)多线程
(9)爬虫框架Scrapy...
分类:
编程语言 时间:
2016-05-18 19:50:24
阅读次数:
200
近年来,随着网络不断的发展,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,在这里,我们向各位读者们推荐几本关于学习Python爬虫的书籍。
分类:
编程语言 时间:
2016-05-18 15:56:22
阅读次数:
731
很多学习Python编程语言的朋友都会学习Python网络爬虫技术,也有专门学习网络爬虫技术的,那么如何学习Python爬虫技术呢,今天就给大家讲讲使用Python抓取数据时非常受欢迎的Python抓取框架scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具。
分类:
编程语言 时间:
2016-05-18 15:02:51
阅读次数:
418