# -*- coding: utf-8 -*-from bs4 import BeautifulSoupdef file2soup(ffile): with open(ffile,'r+b') as f: f.encoding='utf-8' soup=BeautifulSoup(f,'lxml') ...
分类:
其他好文 时间:
2017-06-17 14:22:57
阅读次数:
137
对象的种类 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。 Tag Tag对象与XML或者HTML原生文档中的tag相同 ...
分类:
其他好文 时间:
2017-06-16 10:17:34
阅读次数:
228
import urllib2 import requests #import MySQLdb import webbrowser import string import re from BeautifulSoup import BeautifulSoup def getHtml(page):#获取 ...
分类:
其他好文 时间:
2017-06-15 22:01:25
阅读次数:
212
当抓取网页时,常见的任务是从HTML源码中提取数据。现有的一些库可以达到这个目的: BeautifulSoup lxml BeautifulSoup lxml Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的 XPath 或者 CSS 表达式来“选择” ...
分类:
其他好文 时间:
2017-06-14 16:33:17
阅读次数:
266
# coding:utf-8 import requests from bs4 import BeautifulSoup quesNumStr = str(input("请输入搜索关键字:")) url = 'https://www.zhihu.com/search?type=content&q='... ...
分类:
编程语言 时间:
2017-06-13 23:47:35
阅读次数:
953
1 import requests 2 from bs4 import BeautifulSoup 3 import bs4 4 5 #爬取定向网页的内容 6 def getHTMLText(url): 7 try: 8 r = requests.get(url, timeout = 30) 9 r... ...
分类:
Web程序 时间:
2017-06-13 12:52:31
阅读次数:
177
requests简介 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licen ...
分类:
其他好文 时间:
2017-06-13 12:52:13
阅读次数:
269
想匹配html = 安装最新版python各种数据库的注释中的‘56845037’和‘59120585’,尝试用正则:pattern_l = r''''''re.findall(pattern_l,html)结果不成功。返回为空,有用: soup = BeautifulSoup(... ...
分类:
编程语言 时间:
2017-06-11 14:54:29
阅读次数:
131
先去下载beautifulsoup的安装包https://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/ 下载完之后解压 然后进包里面,里面有一个setup.py文件,执行它 然后就大功告成了,安装完之后我们就可以去爬虫了 ...
分类:
系统相关 时间:
2017-06-11 12:06:17
阅读次数:
176
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list(1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 组合查找即和写 class 文件时,标签名 ...
分类:
编程语言 时间:
2017-06-10 18:25:29
阅读次数:
213