使用selenium 自动化搜索 获取URL 并爬取图片,并保存总结:入口程序写的差,内容繁琐,用到知识点多 import os from chrome_Demo.handless import shaer_browser import time import requests from lxml ...
分类:
其他好文 时间:
2020-02-13 09:57:41
阅读次数:
58
import requests from lxml import etree import time, json, requests import pymysql header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...
分类:
数据库 时间:
2020-02-12 00:28:03
阅读次数:
82
from lxml import etree html = ''' <li class="tag_1">需要的内容1 <a>需要的内容2</a> </li> ''' selector = etree.HTML(html) contents = selector.xpath('//li[@class ...
分类:
其他好文 时间:
2020-02-12 00:27:08
阅读次数:
69
网址:http://www.qianmu.org/ranking/1528.htm import requests from lxml import etree import lxml resp=requests.get('http://www.qianmu.org/2018QS%E4%B8%96% ...
分类:
其他好文 时间:
2020-02-10 22:56:08
阅读次数:
177
发现一个问题: bs4 FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? 解决方法:将"lxml" ...
分类:
其他好文 时间:
2020-02-09 22:06:30
阅读次数:
74
1 from lxml import etree 2 text = "<div><p>nmsl</p><span>nmsl</span></div>" 3 def htmlstree(text): 4 html = etree.HTML(text) 5 result = etree.tostring ...
分类:
编程语言 时间:
2020-02-09 18:26:26
阅读次数:
77
python采集某市政百姓信件内容 #coding:utf-8 import requests from lxml import etree import time import pymysql import datetime import urllib import json from IPyth ...
分类:
其他好文 时间:
2020-02-07 22:34:32
阅读次数:
101
# -*- coding: utf-8 -*- # 类似selenium,支持异步,不需要再单独安装环境,pyppeteer自动安装环境 # 异步await要写到一个函数的内部 from pyppeteer import launch import asyncio from lxml import ...
分类:
其他好文 时间:
2020-02-07 17:07:39
阅读次数:
169
import requests from lxml import etree ###网址 url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" ###模拟浏览器 header={'User-Agent':'Mozilla ...
分类:
其他好文 时间:
2020-02-06 14:34:39
阅读次数:
73
在上个爬虫代码中没有对信件类型进行分类,而且爬取的数据会出现大片时间爬取不到和回复内容爬取不到, 对代码进行优化后, 得到如下数据: 只显示部分数据,可以看到爬取的完整度基本完好。 代码如下: #coding:utf-8 import requests from lxml import etree ...
分类:
其他好文 时间:
2020-02-06 01:04:39
阅读次数:
102