http://blog.csdn.net/column/details/why-bug.html代码具体讲解见(51CTO):http://edu.51cto.com/course/course_id-581.html韩寒博客:http://blog.sina.com.cn/s/articlelis...
分类:
编程语言 时间:
2015-04-25 19:37:53
阅读次数:
127
想要实现网站的登陆,post方法就是提交数据到网站,所以要post数据来用python实现登陆。当你想要登陆人人时,首先要知道网站的登陆细节(先发送账号和密码,返回cookie值,发送cookie到服务器,返回页面,再使用正则提取你想要的数据),我是通过HTTPfox来抓取http数据包来分析这个网站的登陆流程。同时,我们还要分析抓到的post包的数据结构和header,要根据提交的数据结构和he...
分类:
编程语言 时间:
2015-04-25 18:23:06
阅读次数:
149
Scrapy,一个网络爬虫的框架,首先第一步肯定是安装。参考网上的文章。安装过程中需要用到pip工具,请自行安装。1.安装python这个是必须的,既然都用到scrapy了,肯定已经安装了python,这个略过。2.安装pywin32下载地址:http://sourceforge.net/proje...
网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改。
请诸位大牛指点。# -*- coding:utf8 -*-
"""
程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取。
"""
import string
import urllib2
import r...
分类:
编程语言 时间:
2015-04-24 09:06:46
阅读次数:
177
最近右胳膊受伤,打了石膏在家休息。为了实现之前的想法,就用左手打字、写代码,查资料完成了这个资源小爬虫。网页爬虫,最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储。这是一个在线歌曲网站的爬虫,网站名字就不说了,此贴目的是技术交流,请不用做其他用途!相关技术点:h.....
分类:
编程语言 时间:
2015-04-23 23:12:17
阅读次数:
577
HTTP即超文本传输协议(Hyper Text Transfer Protocol),客户端(User Agent)通过WEB浏览器或网络爬虫等工具向服务器(网站)上指定端口(默认为80)以URL(统一资源定位符,即网址)的形式发起一个HTTP请求(一般为GET、POST),服务器监听到这一请求后会回复一个状态行+响应消息的主体,从而形成了一个完整的HTTP“请求—响应”过程,而这一过程是建立在TCP连接之上的数据透明传输过程。...
分类:
Web程序 时间:
2015-04-23 20:02:29
阅读次数:
183
说明:仅为测试下载图片、正则表达式
测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子
以下代码将第一页的图片全部下载到本程序根目录#!/usr/bin/env python
#! -*- coding: utf-8 -*-
import urllib,urllib2
import re
#返回网页源代码
def getHtml(url):
html = urllib2.urlopen...
分类:
编程语言 时间:
2015-04-23 13:27:53
阅读次数:
184
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制;
此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif...
分类:
编程语言 时间:
2015-04-23 13:18:49
阅读次数:
228
最近在写一个京东的爬虫,在模拟其http请求访问评论时,遇到http://club.jd.com/productpage/p-1419543-s-0-t-0-p-0.html?callback=jQuery666571&_=1429756811393这种url,被callback后的串难住。后阅.....
分类:
Web程序 时间:
2015-04-23 12:33:18
阅读次数:
187
现在做网络爬虫很容易,最常使用到的应该莫过于Python,类库丰富开发方便,简单。当然还有其他的,我没有接触的东西也很多,今天就说一下我两年前接触的一个项目中的很小一部分——模仿浏览器访问网站,大名网络机器人。 其实前一段时间看过一篇文章《在浏览器中输入网址后都发生了什么》,这是一篇很好的文章...
分类:
其他好文 时间:
2015-04-23 01:59:16
阅读次数:
105