```python import os import requests from lxml import etree from urllib import request headers = { 'Accept': 'text/html,application/xhtml+xml,applicati... ...
分类:
其他好文 时间:
2020-01-04 14:20:21
阅读次数:
59
背景 经常做爬虫的人,应该对\x00、\x01这样的字符不陌生,网页源码里面 不经常 出现。不过一般都不深究这到底是啥。一开始我也没研究,发现之后就拿正则替换掉,简单粗暴的处理。之所以要去掉,是因为使用Python的lxml库处理的时候会抛异常。再后来,由于需要做一个通用一些的采集器,没办法再无视这 ...
分类:
其他好文 时间:
2020-01-03 23:28:28
阅读次数:
150
# -*- coding: utf-8 -*- import pandas as pd import tushare as ts import lxml from redis import Redis import hashlib import pymysql import time ''' 公司基 ...
分类:
其他好文 时间:
2019-12-27 18:14:52
阅读次数:
179
# -*- coding: utf-8 -*- import pandas as pd import tushare as ts import lxml from redis import Redis import hashlib import pymysql import time import ...
分类:
其他好文 时间:
2019-12-26 19:34:56
阅读次数:
127
# -*- coding: utf-8 -*- from lxml import etree import pandas as pd import tushare as ts from redis import Redis import hashlib import pymysql # 调用stoc ...
分类:
其他好文 时间:
2019-12-25 01:40:57
阅读次数:
265
# -*- coding: utf-8 -*- import requests from lxml import etree import pandas as pd import tushare as ts from redis import Redis import hashlib import ...
分类:
其他好文 时间:
2019-12-24 09:25:50
阅读次数:
75
scrapy框架(二) 一、scrapy 选择器 概述: Scrapy提供基于lxml库的解析机制,它们被称为选择器。 因为,它们“选择”由XPath或CSS表达式指定的HTML文档的某部分。 Scarpy选择器的API非常小,且非常简单。 Scrapy选择器是通过scrapy.Selector类, ...
分类:
其他好文 时间:
2019-12-22 18:38:34
阅读次数:
62
网页解析库 简介 除了正则表达式外,还有其他方便快捷的页面解析工具 如:lxml (xpath语法) bs4 pyquery等 Xpath 全称XML Path Language, 即XML路径语言,是一门在XML文档中查找信息的语言,同样也适用于HTML文档的搜索。 爬虫 我们需要抓取的只是某个网 ...
分类:
Web程序 时间:
2019-12-22 18:26:38
阅读次数:
239
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂; XPath:语法简单,可以满足绝大部分的需求; 所以,如果你可以根据自己的需要进行选择。 一、首先,我们需要为Google浏览器配置XPath插件: 请自行学习,效果如下: 二、XPath的语法: 注意: XP ...
分类:
编程语言 时间:
2019-12-20 11:45:42
阅读次数:
81
import requestsfrom lxml import etree url = 'http://quotes.money.163.com/old/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) App ...
分类:
其他好文 时间:
2019-12-19 17:40:10
阅读次数:
112