from selenium import webdriverfrom lxml import etreefrom time import sleep# 实例化一个浏览器对象(传入浏览器的驱动程序)bro = webdriver.Firefox()# 让浏览器发起一个指定url对应请求bro.get( ...
分类:
其他好文 时间:
2020-04-13 18:11:26
阅读次数:
56
#无状态请求:啥东西都不给我 #有状态请求:返回一个东西给我(相当于分配一个id给我,浏览器则保存了这个id,第二次请求时不用。。。。) import requests,lxml,re from bs4 import BeautifulSoup while True: page=3 for i in ...
分类:
编程语言 时间:
2020-04-11 18:25:04
阅读次数:
68
1爬虫介绍 # 1 本质:模拟发送http请求(requests) 》解析返回数据(re,bs4,lxml,json) 》入库(redis,mysql,mongodb) # 2 app爬虫:本质一模一样 # 3 为什么python做爬虫最好:包多,爬虫框架:scrapy:性能很高的爬虫框架,爬虫界的 ...
分类:
Web程序 时间:
2020-04-10 00:48:11
阅读次数:
114
一、安装(windows下) 1、安装wheel pip install wheel 安装之后,下面下载的whl文件就可以利用 的方法进行安装 2、lxml 我是直接搜索的,而且要下对版本号,比如我用的python3.7,就下载c37的 https://www.lfd.uci.edu/~gohlke ...
分类:
其他好文 时间:
2020-04-08 16:26:10
阅读次数:
78
[TOC] 爬虫介绍 爬虫的本质就是模拟发送http请求(requests模块),之后解析返回的数据(re,bs4,lxml,json等模块),最后将数据入库(redis,mysql,mongodb)。 app的爬虫,本质上是一模一样的。 python做爬虫的优势在于:包多,而且有爬虫的框架scra ...
分类:
其他好文 时间:
2020-04-07 23:57:24
阅读次数:
160
```python from bs4 import BeautifulSoup from urllib import request import threading import re import os from lxml import html class SpiderCategory(thr... ...
分类:
编程语言 时间:
2020-04-06 00:13:04
阅读次数:
69
1.什么是XPath 一种在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历 2.节点 节点类型 在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。其中,XML 文档是被作为节点树来对待的。树的根被称为文档节点 ...
分类:
其他好文 时间:
2020-04-05 22:18:26
阅读次数:
86
from selenium import webdriverfrom lxml import etreeimport time a = webdriver.Chrome(executable_path=r'D:\python学习\其他\chromedriver.exe')url = 'https:/ ...
分类:
其他好文 时间:
2020-04-01 14:41:25
阅读次数:
64
进入python安装目录的Scripts目录 就可以执行pip命令来安装扩展 执行安装命令,pip install 扩展名 如:pip install lxml ...
分类:
其他好文 时间:
2020-03-28 00:49:32
阅读次数:
66
#!/usr/bin/env python# encoding: utf-8'''Module DescriptionCreated on Jul 22, 2019@author: user@change: Jul 22, 2019 user: initialization'''from lxml ...
分类:
编程语言 时间:
2020-03-27 13:03:46
阅读次数:
157