搞采集,那第一步离不开的肯定是蜘蛛,那我们必须的科普一下,何为网络蜘蛛? 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 详细自己搜 ...
分类:
其他好文 时间:
2016-11-02 00:54:10
阅读次数:
261
笔记: 正则表达式的三个作用:1、用来进行字符串的匹配2、用来进行替换操作3、用来提取信息 网络爬虫:通过超链接获取所有匹配的信息。使用递归完成。正则提取信息。 正则表达式基础:String的match方法,replace中的使用。java.util.regex类 Pattern中最基础的正则表达式 ...
分类:
编程语言 时间:
2016-10-31 07:19:08
阅读次数:
297
闲来无事,想要学习一下Python,十月初的时候搭好了ubuntu的环境,用的是Ubuntu 16.04 32位+sublime Text3,轻量级的编程环境,感觉用起来还是比较舒服的。也陆陆续续地学习了一下python的语法和相关的知识点,并没有感觉到python有什么特别的地方,数据结构中的列表 ...
分类:
编程语言 时间:
2016-10-30 19:46:03
阅读次数:
405
自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的 ...
分类:
编程语言 时间:
2016-10-28 22:31:08
阅读次数:
204
上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。这里我们使用selenium库,通过它我们可以很简单的使用浏览器来为我们加载动态内容,从而获取采集结... ...
分类:
编程语言 时间:
2016-10-25 14:06:51
阅读次数:
259
2.设置超时时间 如果代理需要账户和密码,则需这样: proxies = { "http": "http://user:pass@10.10.1.10:3128/", } 还可以显式地设置文件名: >>> url = 'http://httpbin.org/post' >>> files = {'f ...
分类:
编程语言 时间:
2016-10-25 14:06:46
阅读次数:
174
因为参与了创新计划,所以懵懵懂懂的接触到了网络爬虫。 爬数据使用工具,因此了解到Python、asp.net等可以用来抓数据。 想想在学习.net的时候根本没有想到会使用在这个上面——书本上的知识都是死的,那学习的基础知识只能通过不断的拓展使用领域才能在更好的得到深化、应用! 进入一个陌生的领域,从 ...
分类:
其他好文 时间:
2016-10-22 23:51:48
阅读次数:
246
一、什么是语义化的HTML?语义化的HTML就是正确的标签做正确的事情,能够便于开发者阅读和写出更优雅的代码的同时让网络爬虫很好地解析。二、为什么要做到语义化?1、有利于SEO,有利于搜索引擎爬虫更好的理解我们的网页,从而获取更多的有效信息,提升网页的权重。2、在没有CSS的时候能够清晰的看出网页的 ...
分类:
Web程序 时间:
2016-10-21 23:52:18
阅读次数:
261
设计思路: 程序入口从一个或多个url开始,通过http(s)获取url的内容,对获取到内容处理,获取内容中需要爬取的信息,获取到内容中的url链接,再重复以上步骤。 不多说,详情看代码已经注释: 设计思路: 程序入口从一个或多个url开始,通过http(s)获取url的内容,对获取到内容处理,获取 ...
分类:
其他好文 时间:
2016-10-20 11:42:15
阅读次数:
146
现阶段网络爬虫的工具主要是有scrapy、selenium(第二版)等。总的来说各有好处,scrapy最大
的好处是爬取的速度快而selenium的好处是能爬去的网站种类多。详细点的解释是:scrapy在爬取网页时不
用点击开页面(selenium似乎需要页面全部加载完才可以查找定位),selenium可以爬..
分类:
其他好文 时间:
2016-10-17 23:41:30
阅读次数:
150