1.搜索关键词:利用Selenium驱动浏览器,得到商品列表。 2.分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。 3.分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。 4.存储到MongoDB:将商品列表信息存储到数据库MongoDB。 可以利用PhantomJ ...
分类:
其他好文 时间:
2018-06-01 01:00:13
阅读次数:
202
一、爬虫基本原理 1.获取网络数据 用户方式:浏览器提交请求->下载网页代码->解析/渲染成页面 爬虫方式:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 2.爬虫的基本原理 向网站发起请求,获取资源后分析并提取有用数据的程序 3.爬虫的基本流程 #1、发起请求使用h ...
分类:
编程语言 时间:
2018-05-21 16:17:09
阅读次数:
224
大多数情况下,图片获取并不是很困难的事情,获取图片的url,然后模拟浏览器请求即可。但是,有的时候这种方法往往无法生效,常见的情形有: 这些情况下,使用puppeteer驱动chrome浏览器能看到图片,但获取url后单独请求时,要么获取到的图片无效,要么获取不到图片。本文这里就简单的介绍下一些十分 ...
分类:
其他好文 时间:
2018-05-20 20:39:22
阅读次数:
2037
#!/usr/bin/python3#!-*-coding:utf-8-*-#导入库#import requestsfrom bs4 import BeautifulSoup#模拟浏览器访问#headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM
分类:
其他好文 时间:
2018-05-17 13:40:45
阅读次数:
124
import socket # 建立socket对象 socket_con = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 连接指定服务器地址 socket_con.connect(('www.baidu.com', 80)) # 拼接请求... ...
分类:
其他好文 时间:
2018-05-12 02:46:13
阅读次数:
123
1、要求:python基础,python web框架的了解,web.py\flask\django等,爬虫框架scrapy的基础,html解析技术bs\xpath等 2、设计爬虫策略 3、反爬虫处理,模拟浏览器,使用代理ip等 4、分布式爬虫 scrapy-redis,利用redis对url去重,存 ...
分类:
编程语言 时间:
2018-04-09 21:48:09
阅读次数:
196
模拟浏览器请求数据:importsocket#创建TCP链接tcp_socket=socket.socket(socket.AF_INET,socket.SOCK_STREAM)#DNS解析和链接HTTP服务器tcp_socket.connect(("www.qq.com",80))#编写请求头,发送HTTP请求报文#请求行request_line="GET/HTTP/1.1\r\n"#请求头,设
分类:
编程语言 时间:
2018-04-07 01:08:36
阅读次数:
322
方法一、使用build_opener()修改报头 方法二、使用add_header()添加报头 ...
分类:
其他好文 时间:
2018-03-24 22:30:05
阅读次数:
214
''' Selenium 模拟浏览器爬取网页信息 一种是真实的浏览器,也即是在程序调用浏览器时,会打开相应的浏览器来显示, 如:chrome,ie,safari,firefox 一种是伪浏览器,没有浏览器界面,只负责处理html,js和cookie的功能。 如:htmlunit,phantomjs ...
分类:
Web程序 时间:
2018-03-23 15:18:36
阅读次数:
224
1、如果要想模拟浏览器发送get请求,就要使用Request对象,通过Request对象添加HTTP头,就可以伪装成浏览器。 from urllib impor request req=request.Request("http://www.bnaid.com") req.add_header('U ...
分类:
其他好文 时间:
2018-03-21 23:21:31
阅读次数:
263