python2爬虫:从网页上采取数据爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml1.urllib2.request3.bs44.正则re5种数据类型(1)数字Number(2)字符串String(3)列表List[]中文在可迭代对象就是unicode对象(4)元组Tuple()(5)字典Set{}爬虫思路:1.静态urlopen打开网页------
分类:
编程语言 时间:
2018-01-17 00:46:40
阅读次数:
200
#!/usr/bin/evnpython--coding:cp936--importre#导入正则表达式模块importurllib#导入urllib模块,读取页面与下载页面需要用到defgetHtml(url):#定义getHtml()函数,用来获取页面源代码page=urllib.urlopen(url)#urlopen()根据url来获取页面源代码html=page.read()#从获取的对
分类:
编程语言 时间:
2018-01-17 00:42:06
阅读次数:
169
1.1介绍通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到:urllib和urllib2模块正则表达式(re模块)requests模块Scrapy框架urllib库:1)获取web页面2)在远程http服务器上验证3)表单提交(GET和POST)4)异常处理(urllib2.URLError)5)非http协议通信(ftp)获取页面信息:urllib2.urlopen(url,d
分类:
编程语言 时间:
2018-01-17 00:37:36
阅读次数:
223
一 编写with操作类Fileinfo(),定义__enter__和__exit__方法。完成功能: 1.1 在__enter__方法里打开Fileinfo(filename),并且返回filename对应的内容。如果文件不存在等情况,需要捕获异常。 1.2 在__enter__方法里记录文件打开的 ...
分类:
编程语言 时间:
2018-01-14 22:39:55
阅读次数:
188
为什么要添加头部信息,因为有时候有些网页会有反爬虫的设置,导致无法获取正常的网页,在这里,在代码的头部添加一个headers信息,模拟成浏览器去访问网页。没有添加头部信息的代码importurllib2url="http://blog.51cto.com/lsfandlinux/2046467"file=urllib2.urlopen(url)html=file.read()printhtml接下
分类:
编程语言 时间:
2018-01-14 19:35:47
阅读次数:
221
1.1 介绍通过过滤和分析HTML代码,实现对文件、图片等资源的获取一般用到:urllib和urllib2模块正则表达式(re模块)requests模块Scrapy框架urllib库:1)获取web页面2)在远程http服务器上验证3)表单提交(GET和POST)4)异常处理(urllib2.URLError)5)非http协议通信(ftp)获取页面信息:urllib2.urlopen(url,d
分类:
编程语言 时间:
2018-01-12 22:38:08
阅读次数:
264
初学爬虫,整理一些相关知识,方便查询 1、urlopen 语法: resp = request.urlopen(url) #读取所有内容 resp.read() #读取指定n个内容 resp.read(n) #读取一行内容 resp.readline() #所有内容以行的形式读取 resp.read ...
分类:
Web程序 时间:
2018-01-11 20:36:17
阅读次数:
225
from urllib import request from lxml import etree # url = '''http://bangumi.tv/anime/browser?sort=rank''' # response = request.urlopen(url) # html = r... ...
分类:
其他好文 时间:
2018-01-11 19:14:49
阅读次数:
179
爬取过程,首先通过urllib.request.urlopen(url).read(),读取对应网页的全部源代码,然后根据上面的第一个正则表达式进行第一次信息过滤,过滤完成后,进行第二次过滤,找出所有目标的图片链接,将这些链接地址存储到一个列表中,然后遍历该列表,并将对应链接通过urllib.req ...
分类:
其他好文 时间:
2018-01-11 15:23:18
阅读次数:
88
Python3之urllib模块 简介 urllib是python的一个获取url(Uniform Resource Locators,统一资源定位符),可以用来抓取远程的数据。 常用方法 (1)urlopen urllib.request.urlopen(url, data=None,[timeo ...
分类:
编程语言 时间:
2018-01-10 17:00:53
阅读次数:
1238