一般爬虫都是用urllib包,requests包 配合正则.beautifulsoup等包混合使用,达到爬虫效果,不过有框架谁还用原生啊,现在我们来谈谈SCRAPY框架爬虫, 现在python3的兼容性上来了,SCRAPY不光支持python2版本了,有新的不用旧的,现在说一下让很多人望而止步的安装 ...
分类:
编程语言 时间:
2018-01-31 11:37:50
阅读次数:
103
# -*- coding: utf-8 -*- """ Created on Tue Jan 30 08:46:36 2018 block:每个区块包含属性:索引(index),Unix时间戳(timestamp),交易列表(transactions),工作量证明(稍后解释)以及前一个区块的Hash... ...
分类:
编程语言 时间:
2018-01-30 19:36:36
阅读次数:
435
``` import re import urllib import urllib.request headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} ... ...
分类:
编程语言 时间:
2018-01-29 22:36:47
阅读次数:
263
python3的urllib 模块提供了获取页面的功能。 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开 ...
分类:
编程语言 时间:
2018-01-29 22:29:42
阅读次数:
283
在python抓取图片的时候,有时候却找不到对应的网址,可能存在json中,所以如何用python解析json数据,小白看了几个论坛后自己总结一些以便加深印象。 1.requests.get(url,params) 获得请求数据 1. urllib.request + json 获得请求数据 综上两 ...
分类:
Web程序 时间:
2018-01-28 00:09:14
阅读次数:
951
个人觉得使用BeautifulSoup匹配网页标签内容比re更容易一些,re的规则比较多而且有些使用方法比较难,很容易匹配不到 而soup方法在处理网页标签就特别容易,这和urllib.request.urlopen()和request.get()一样,后者要容易一些: 1.re 正则表达式 编译模 ...
分类:
其他好文 时间:
2018-01-27 11:25:30
阅读次数:
1418
阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页 ...
分类:
其他好文 时间:
2018-01-26 15:47:43
阅读次数:
219
【基于python3的版本】rllib下载:当不知道urlretrieve方法,写法如下:from urllib import request
url = "http://inews.gtimg.com/newsapp_match/0/2711870562/0"
req = request.Request(u
分类:
编程语言 时间:
2018-01-25 17:21:06
阅读次数:
186
# -*- coding: utf-8 -*- import urllib.request import json #定义要爬取的微博大V的微博ID id='3924739974' #设置代理IP proxy_addr="122.241.72.191:808" #定义页面打开函数 def use_p... ...
分类:
编程语言 时间:
2018-01-25 16:45:00
阅读次数:
465