一、ItemPipeLine 1.爬虫提取出的数据存入item之后,item中保存的数据需要进一步处理,比如:清洗,去重,存储等 2.pipeline需要process_item函数 (1)process_item?:spider提出来的item作为参数出入,同时传入的还有spider;此方法是必须 ...
分类:
编程语言 时间:
2020-03-26 01:16:56
阅读次数:
85
浏览器主要是为用户向服务器发起请求,并获取到信息。如果爬虫想要模仿浏览器获取信息的过程,应该怎么实现呢?需要利用哪些工具?浏览器是通过HTTP协议的请求获取信息的,URL只是标识资源的位置。客户端发送一个HTTP请求到服务器请求消息,包括如下格式:请求行、请求头部、空行、请求数据。请求行由请求方法字段、URL字段和HTTP协议版本字段组成,通过空格分隔,例如:GET/index.htmlHTTP/
分类:
编程语言 时间:
2020-03-25 19:49:45
阅读次数:
131
爬虫所需要的功能,基本上在urllib中都能找到,学习这个标准库,可以更加深入的理解后面更加便利的requests库。 首先 在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.request,urllib.error 在Pyth ...
分类:
编程语言 时间:
2020-03-25 10:54:09
阅读次数:
93
content 1.什么是爬虫? 2.为什么用python做网页爬虫 3.python环境配置 4.我需要了解哪些python爬虫的前置知识 5.关于正则表达式 6.提取网页内容并用正则表达式处理 7.xPath和BeautifulSoup工具简介 1.爬虫简介 简单来讲,爬虫就是一个探测机器,它的 ...
分类:
编程语言 时间:
2020-03-24 00:46:56
阅读次数:
96
通过前面的文章,我们已经知道了如何获取网页和下载文件,但是前面我们获取的网页都是未经处理的,冗余的信息太多,无法进行分析和利用 这一节我们就来学习怎么从网页中筛选自己需要的信息,顺便给大家推荐一个资源很全的python学习免非解答.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,这里有资深程 ...
分类:
编程语言 时间:
2020-03-23 15:10:27
阅读次数:
118
from urllib import request url = 'http://httpbin.org/ip' #使用代理 #1.使用ProxyHandler构建一个hander handler = request.ProxyHandler({ "HTTP":"182.35.84.11:9999" ...
分类:
编程语言 时间:
2020-03-22 16:11:07
阅读次数:
84
今天给大家分享一篇简单的安卓app数据分析及抓取方法。以抖音为例,我们想要抓取抖音的热点榜数据。 要知道,这个数据是没有网页版的,只能从手机端下手。 首先我们要安装charles抓包APP数据,它是一款收费的抓包修改工具,易上手,数据请求容易控制,修改简单,抓取数据的开始暂停方便等优势,网上也有汉化 ...
分类:
移动开发 时间:
2020-03-22 15:33:50
阅读次数:
110
import requests from bs4 import BeautifulSoup as bs res = requests.get('http://politics.people.com.cn/GB/1024/index.html') content = res.content.decod ...
分类:
编程语言 时间:
2020-03-21 18:29:37
阅读次数:
75
打开靶机 查看页面信息 尝试直接上传一句话木马 提示不允许上传 查看源码 发现仅允许上传.jpg,.png,.gif三种格式的文件 上传shell.jpg并使用burpsuite抓取数据包 添加完成后再次尝试上传 更改shell.jpg为shell.php 放包 查看文件信息 使用菜刀或蚁剑连接 查 ...
分类:
Web程序 时间:
2020-03-20 12:36:25
阅读次数:
278
Python爬取新笔趣阁小说,并保存到TXT文件中 我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后迎刃而解了。这个程序非常的简单,程序的大概就是先获取网页的源代码,然后在网页的源代码中提取每个章节的url,获 ...
分类:
编程语言 时间:
2020-03-20 10:56:07
阅读次数:
67