from urllib import requestimport jsonimport timeimport reurl = ["https://movie.douban.com/celebrity/1032800/movies?start=0&format=pic&sortby=time&","h ...
分类:
其他好文 时间:
2018-08-11 23:20:21
阅读次数:
197
urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例; 但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没 ...
分类:
Web程序 时间:
2018-08-11 20:52:52
阅读次数:
226
一、爬虫入门 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 运用python3.6中的urllib.request 1.快速爬取一个网页 (1)get请求方式 #!/usr/bin/env pytho ...
分类:
编程语言 时间:
2018-08-10 01:23:17
阅读次数:
200
工具:python3.6 pycharm 库:bs4 + urllib 第一步:读取html源码 第二步:获取内容和标题 第三步:在当前目录下新建一个lesson的文件夹,将文件存储在此文件夹下 数据爬取完毕。 注:以上完成一个页面的抓取,若想多抓取页面的话,可用以下代码: ...
分类:
编程语言 时间:
2018-08-10 01:16:43
阅读次数:
190
``` """ this is a module,多行注释 """ import re from urllib import request # BeautifulSoup:解析数据结构 推荐库 Scrapy:爬虫框架 #爬虫,反爬虫,反反爬虫 #ip 封 #代理ip库 class Spider()... ...
分类:
编程语言 时间:
2018-08-08 22:55:18
阅读次数:
384
前言 用POST的方式上传文件,检测APK是否存在ZipperDown漏洞。 代码 ...
分类:
编程语言 时间:
2018-08-08 21:19:25
阅读次数:
314
前言 这个文章的技术含量并不高,旨在练习scrapy框架的基本用法,熟悉框架下各个文件的作用。 先上一波爬取结果: 进群:125240963 即可获取数十套PDF哦! 日志部分截图 数据库部分截图 实战 引入类库 import scrapy from urllib import parse from ...
分类:
其他好文 时间:
2018-08-08 14:54:25
阅读次数:
351
仅仅是urllib2.unquote_plus解码是不够的,需要将特殊字符去掉 BOM: https://en.wikipedia.org/wiki/Byte_order_mark#UTF-8 ASCII Characters: http://donsnotes.com/tech/charsets/ ...
分类:
编程语言 时间:
2018-08-06 13:01:25
阅读次数:
548
第一种IP地址代理方式from urllib import requestif __name__ == "__main__": # 访问网址 url = 'http://www.ahaoboy.cn:888/' # 这是代理IP proxy = { # 'http': '106.46.136.112 ...
分类:
编程语言 时间:
2018-08-03 14:46:40
阅读次数:
126
问题:使用requests模块进行数据请求时,params中的数据中包含有%时,在生成的url链接中该参数值出错,导致请求码401 原因:请求发出后,在解析url和params时,urllib模块中会通过self._encode_params对params进行处理,最后追加所有参数的时候,使用了qu ...
分类:
其他好文 时间:
2018-08-03 14:36:01
阅读次数:
165