一:XPath介绍 XPath全称XML路径语言,用于确定XML文档中某部分位置。XPath基于XML树状结构,在树中寻找结点。 现在,一般使用XPath在XML中查找、提取信息,同时,它也支持HTML。所以,我们可以用XPath取代正则表达式来提取信息。 XPath通过元素以及属性进行导航。 二: ...
分类:
编程语言 时间:
2017-06-16 11:23:26
阅读次数:
134
貌似最新的scrapy已经支持python3,但是错误挺多的,以下为在win7中的安装步骤: 1、首先需要安装Scrapy的依赖包,包括parsel, w3lib, cryptography, pyOpenSSL,twisted,lxml 其中,twisted和lxml的安装包可以在http://w ...
分类:
编程语言 时间:
2017-06-15 14:11:54
阅读次数:
228
当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” ...
分类:
其他好文 时间:
2017-06-14 16:33:17
阅读次数:
266
系统环境搭建: 环境变量配置【预先配置好】 Python安装升级: jdk安装 mysql安装 安装hadoop hive安装 DB2安装 调度平台安装【另外一台机器】 ...
分类:
其他好文 时间:
2017-06-11 18:21:39
阅读次数:
293
# -*- coding: utf-8 -*- import requests import js2xml from lxml import etree headers = { # 这边cookie替换成你的cookie 'Cookie':'9b', 'User-Agent': 'Mozilla/5... ...
分类:
编程语言 时间:
2017-06-11 17:28:59
阅读次数:
370
确保目录结构存在。每次创建文件,确保父目录已经存在。确保指定路径全部或部分目录已经存在。创建沿指定路径上不存在目录。 下载函数,如果文件名未指定,从URL解析。下载文件,返回本地文件系统文件名。如果文件存在,不下载。如果文件未指定,从URL解析,返回filepath 。实际下载前,检查下载位置是否有 ...
分类:
其他好文 时间:
2017-06-09 12:35:32
阅读次数:
187
当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。 构造选 ...
分类:
其他好文 时间:
2017-06-09 00:48:33
阅读次数:
167
# -*- coding: utf-8 -*- from lxml import html from time import sleep import requests from selenium.webdriver.common.desired_capabilities import Desire... ...
分类:
Web程序 时间:
2017-06-07 12:41:02
阅读次数:
180
import requests from bs4 import BeautifulSoup import lxml import re import time import random import pymysql.cursors connection = pymysql.connect(host... ...
分类:
其他好文 时间:
2017-06-06 10:53:28
阅读次数:
239
1、通过爬取历史首页,来获取城市地址和历史时间,构建链接; ''' 获取全国的城市名称和链接 ''' import requests from lxml import etree import random import pymongo from time_list import get_time ...
分类:
编程语言 时间:
2017-06-06 01:01:12
阅读次数:
1670