在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info and geturl urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl(): 这个返回获取的真实的URL,这个很有用,因为urlope ...
分类:
编程语言 时间:
2017-06-08 18:55:40
阅读次数:
187
my噶地~~ 学习了一段时间爬虫,了解最基本的模块。要开始连接数据库啦,遇到小问题,随笔mark。 爬虫就是在网页上解析数据,一开始只能爬到pycharm的显示栏,高级一点点的有图形化界面,可以爬取小说、文字、图片、小视频and so on,, 爬虫必备模块之urllib、urllib2、re、be ...
分类:
数据库 时间:
2017-06-07 15:43:20
阅读次数:
232
近期准备深入学习Python相关的爬虫知识了。假设说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正則表達式"就能搞定的话。那么动态生成的信息页面。如Ajax、JavaScript等就须要通过"Phantomjs + CasperJS + Seleni ...
分类:
编程语言 时间:
2017-06-03 19:18:48
阅读次数:
420
python写爬虫使用urllib2方法 整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 假设想在程序中明白控制 Proxy 而不受环境变量的影响。能够使用代理。 新建test14来实现一个简单 ...
分类:
编程语言 时间:
2017-06-03 18:13:25
阅读次数:
270
题目链接:http://ctf5.shiyanbar.com/ppc/sd.php 对于python的怎么post还有seesion我都是一无所知 -。。- 简单的归结一下知识点: 1.利用Beautifulsoup获取sha1部分 2.0-100000之间的整数进行md5和sha1加密 3.结果进 ...
分类:
其他好文 时间:
2017-05-29 18:18:36
阅读次数:
809
1.urlopen参数设置 urlopen(url, data, timeout) import urllib import urllib2 url = 'http://www.server.com/login' user_agent = 'Mozilla/4.0 (compatible; MSIE ...
分类:
其他好文 时间:
2017-05-28 15:26:33
阅读次数:
189
获取http://www.qiushibaike.com/textnew/的所有段子,并且按照页码保存到本地一共35页。二话不说上代码,正则表达式有待研究。网站源码片段: <a href="/users/32215536/" target="_blank" title="吃了两碗又盛"> <h2>吃 ...
分类:
编程语言 时间:
2017-05-27 19:14:23
阅读次数:
283
发现某站点文章很多,爬取所有文章名和链接,并保存在txt文档中,方便后续查看#!/usr/bin/python
#-*-coding:UTF-8-*-
importurllib,urllib2,re,requests
importsys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
domain=[‘http://linux.linuxidc.com/‘]
name_url=[]#一级页..
分类:
编程语言 时间:
2017-05-26 14:38:57
阅读次数:
564
import ssl import json from PIL import Image import requests import re import urllib.request as urllib2 if hasattr(ssl, '_create_unverified_context'): ...
分类:
编程语言 时间:
2017-05-21 16:53:21
阅读次数:
329
抓取网页 python核心库 urllib2 实现对静态网页的抓取,不得不说,“人生苦短,我用python”这句话还是有道理的,要是用java来写,这估计得20行代码 (对不住了博客园了,就拿你开刀吧) 实现对动态网页的抓取,采用post请求,如果想用get方法,只需要把参数接在url后面,不需要d ...
分类:
编程语言 时间:
2017-05-18 20:00:53
阅读次数:
233