#!python
#coding:utf-8
#python实现百度搜索关键字,并依次用浏览器打开前五个搜索结果
##
##BeautifulSoup是一个模块,用于从HTML页面中提取信息(用于这个目的时,它比正则表达式好很多)。BeautifulSoup模块的名称是bs4(表示BeautifulSoup,第4版)。要安装它,需要在命令..
分类:
编程语言 时间:
2017-06-09 09:53:06
阅读次数:
181
当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” HTML 文件中的某个部分。 构造选 ...
分类:
其他好文 时间:
2017-06-09 00:48:33
阅读次数:
167
案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称、时间、链接。 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/c ...
分类:
编程语言 时间:
2017-06-08 01:20:35
阅读次数:
2687
import requests from bs4 import BeautifulSoup import lxml import re import time import random import pymysql.cursors connection = pymysql.connect(host... ...
分类:
其他好文 时间:
2017-06-06 10:53:28
阅读次数:
239
import requests from bs4 import BeautifulSoup import pandas as pd import gevent from gevent import monkey;monkey.patch_all() import time import re imp... ...
分类:
其他好文 时间:
2017-06-05 15:51:56
阅读次数:
294
import lxml from bs4 import BeautifulSoup import time from selenium import webdriver import re driver = webdriver.PhantomJS() driver.set_window_size(1... ...
分类:
其他好文 时间:
2017-06-04 19:52:51
阅读次数:
334
上一篇说到用BeautifulSoup解析源代码,下面我们就来实战一下: 其实用open的方式可以避免decode报错,可以的话还是用open比较好。运行结果: 噌~是不是快了许多,还有更快的: h1其实是一个标签,用BeautifulSoup解析过后可以直接引用,下面我们直接引用title标签(学 ...
分类:
编程语言 时间:
2017-06-03 23:31:06
阅读次数:
292
近期准备深入学习Python相关的爬虫知识了。假设说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正則表達式"就能搞定的话。那么动态生成的信息页面。如Ajax、JavaScript等就须要通过"Phantomjs + CasperJS + Seleni ...
分类:
编程语言 时间:
2017-06-03 19:18:48
阅读次数:
420
# -*- coding:UTF-8 -*- import requests,time from collections import OrderedDict import threading from bs4 import BeautifulSoup as bp t3 = time.time() ... ...
分类:
编程语言 时间:
2017-06-02 17:23:48
阅读次数:
202
上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正 ...
分类:
编程语言 时间:
2017-06-01 22:48:54
阅读次数:
515