urllib urllib2 Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ lxml http://lxml.de HTQL http://htql.net/ Scrapy http://scrapy.org/ Mechan ...
分类:
编程语言 时间:
2017-04-25 22:27:01
阅读次数:
179
1.使用urllib与urllib2包 2.使用cookielib自动管理cookie 3.360浏览器F12抓信息 登录请求地址和验证码地址都拿到了如图 执行一下,手工输入验证码,成功信息: ...
分类:
编程语言 时间:
2017-04-25 13:16:15
阅读次数:
504
Python/迭代器和生成器 一、迭代器 迭代器的特性: 迭代是Python中最强有力的特性之一,可以把迭代看成是一种处理序列中元素的方式。 可以直接作用于for循环的对象统称为可迭代对象(Iterable)。 可以被next()函数调用并不断返回下一个值的对象称为迭代器(Iterator)。 所有 ...
分类:
编程语言 时间:
2017-04-24 15:45:39
阅读次数:
222
学习python有一段时间了这几天想写一个爬去百度图片的小爬虫代码from selenium import webdriverimport urllib,reimport timeimport urllib2import sysimport osimport socketimport threadi ...
分类:
其他好文 时间:
2017-04-24 14:08:07
阅读次数:
193
1 from urllib.request import Request, urlopen 2 from urllib.error import URLError, HTTPError 3 req = Request(someurl) 4 try: 5 response = urlopen(req)... ...
分类:
其他好文 时间:
2017-04-23 15:53:17
阅读次数:
151
1、urlopen()方法 urllib.request.urlopen(url[,data[,proxies]]) 创建一个表示远程url的类文件对象,然后像本地文件一样的操作这个类文件对象来获取远程数据 参数url表示远程数据的路径,一般是指网址 参数data表示以post方式提交到url的数据 ...
分类:
Web程序 时间:
2017-04-22 20:37:58
阅读次数:
234
import requests import os import re import re import urllib import urllib.parse from bs4 import BeautifulSoup count=0#小类的个数 all_url='http://category.d ...
分类:
其他好文 时间:
2017-04-22 14:39:50
阅读次数:
133
import requests from bs4 import BeautifulSoup import urllib.request import urllib.parse import os import re import sys j=0 keyword=input("请输入搜索信息:")#输 ...
分类:
其他好文 时间:
2017-04-22 14:37:35
阅读次数:
137
#!/usr/bin/envpython#-*-coding:utf-8-*-#author:ChanghuaGongimporttime,threading#fromurllib.requestimportRequest,urlopenpy3#fromurllib.errorimportURLErrorpy3importurllib2#URLreq=urllib2.Request(‘http://47.93.169.69:10080/pigeon-web/user/userExtraInfo?userId=..
分类:
编程语言 时间:
2017-04-21 21:48:57
阅读次数:
206
爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。接着开始接触传说中给人用的requests ...
分类:
其他好文 时间:
2017-04-20 10:05:15
阅读次数:
197