码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 抓取数据    ( 2655个结果
一个python爬虫小程序
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊、“多线程”啊都没有学到。想到廖雪峰大神的python教程很经典、很著名。就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!!怒了,准备写个程序直接去爬廖雪...
分类:编程语言   时间:2015-05-13 18:52:31    阅读次数:147
2015-05-12 python爬虫学习
开始学习python,在网上找了一个扒糗事百科精华的爬虫,自己稍许的修改了一下,就可以正常的扒拉糗百精华,别人的代码不敢独占,就贴出来分享给大家,废话没有上代码: #?-*-?coding:?utf-8?-*-?? ??? ...
分类:编程语言   时间:2015-05-13 01:01:54    阅读次数:209
加强对HEAD 请求的处理(转贴)
最近发现有些搜索引擎爬虫在抓取数据的时候,先是通过一个HEAD 请求获取response的header 信息,然后再通过GET 请求获取response 的body信息(即页面的内容)——先发送HEAD 请求是为了获得页面的更新时间(即response header 中的Last-Modified ...
分类:其他好文   时间:2015-05-11 19:35:29    阅读次数:199
浅谈SEO
SEO即(Search Engine Optimization),搜素引擎优化是指对网站内外部进行调整优化,获得更多的流量。搜索引擎工作时先抓取数据,再将搜寻到的数据建立数据库进行预处理,当有用户有搜索企求时,搜索引擎会分析用户的企求,对搜索到的结果进行排序,并展现到用户面前,而搜索引擎处理这个过程...
分类:其他好文   时间:2015-05-10 22:14:09    阅读次数:126
使用迭代器模式批量获得数据(C#实现)
先说一下项目的背景,以前曾经做过一个项目,根据Excel中的数据批量的到网页上抓取数据,将抓取到的数据批量的回填到Excel中。这个Excel中有很多行的记录(多的时候会有好几千行),每一行数据存储能在网页上查询唯一的一条数据的条件。操作网页部分使用了微软MSHTML,在这里不做多余的介绍。这里主....
分类:Windows程序   时间:2015-05-10 17:16:37    阅读次数:172
python爬虫抓取全国pm2.5的空气质量(BeautifulSoup3)
这个编码格式真的是很闹心啊,看来真的得深入学习一下编码格式,要不这各种格式错误。 这个编码还和编辑器有关系,最开始的时候实在sublime Text里编辑的代码,运行起来卡卡的,特别顺畅,但突然发现它不支持raw_input和input,所以令临时换到了python官方提供的idle中。之后就出现了各种奇葩编码错误。。。。。。 程序大概意思就是,你输入一个城市的拼音,它就会返回这个城市的空气污...
分类:编程语言   时间:2015-05-09 16:40:09    阅读次数:623
Python爬虫实战-爬取糗事百科段子
1.本文的目的是练习Web爬虫目标:1.爬去糗事百科热门段子2.去除带图片的段子3.获取段子的发布时间,发布人,段子内容,点赞数。2.首先我们确定URL为http://www.qiushibaike.com/hot/page/10(可以随便自行选择),先构造看看能否成功构造代码: 1 # -*- c...
分类:编程语言   时间:2015-05-08 21:51:04    阅读次数:196
模拟web访问有登录且有验证码的登录后抓取数据
模拟web访问有登录且有验证码的登录后抓取数据 1 取验证码 2 取js赋值的内容 3 登录并且存取cookie...
分类:Web程序   时间:2015-05-07 10:26:29    阅读次数:221
Python下用Scrapy和MongoDB构建爬虫系统(1)
本文由伯乐在线-木羊翻译,xianhu校稿。未经许可,禁止转载!英文出处:realpython.com。欢迎加入翻译小组。这篇文章将根据真实的兼职需求编写一个爬虫,用户想要一个Python程序从Stack Overflow抓取数据,获取新的问题(问题标题和URL)。抓取的数据应当存入MongoDB。...
分类:数据库   时间:2015-05-05 14:09:56    阅读次数:207
Tcpdump进行抓包,发现包不完整
客户端发的post请求的http包,用tcpdump抓包发现只抓到了一点(看包的长度是正确的,但是实际内容确不一样): win下用wireshark抓包,长度和内容都是正常的: 原因分析:用Tcpdump进行抓包时,没有用-s参数指定抓取数据的长度,采用了默认长度为68或96字节;-s0则表示没有长度的限制。...
分类:其他好文   时间:2015-05-04 10:03:58    阅读次数:301
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!