最近玩爬虫,先把python解析器 beautifulsoup 练练 这个 tainiu.html 是从百度网盘里拷贝一段html from bs4 importBeautifulSoup with open('tainiu.html','r',encoding ='UTF-8')as f: htm ...
分类:
编程语言 时间:
2017-01-17 23:30:49
阅读次数:
184
结合个人需求,从某个网站获取一些数据,发现网页链接是隐藏的,需要通过浏览器看后面的代码来获取真实的链接。 下面这个案例,直接是从真实的链接中爬去数据。 此外,发现用pandas的read_html不能直接解析“lxml”的表格,有待后续研究。 另外,爬去的数据发现有很多空格符号,主要是 "\r"、" ...
分类:
编程语言 时间:
2017-01-17 07:42:46
阅读次数:
278
一开始使用了beautifulSoup的get_text()进行字符串的提取,后来一直提取失败,并提示错误为TypeError: 'NoneType' object is not callable 返回了none类型,可能是对Span标签内容的提取产生错误,于是采用name.string进行字符的提 ...
分类:
编程语言 时间:
2017-01-12 08:43:45
阅读次数:
300
因为做网页爬虫,需要用到一个爬新闻的BeautifulSoup 的包,然后再关网上下的是whl包,第一次装,虽然花了点时间,最后还是装上去了,记录一下,方便下次。 先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有 ...
分类:
编程语言 时间:
2017-01-08 12:43:39
阅读次数:
255
# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Enviroment: Python 2.7, Windows 7 (32bit), Chinese Langua ...
分类:
其他好文 时间:
2017-01-03 16:45:27
阅读次数:
255
1、安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2、常见问题 1> lxml安装问题 如果遇到lxml无法安装问题,参考知乎上的答案: 首先,安装wheel,命令行运行:pip install wheel其次 ...
分类:
其他好文 时间:
2017-01-03 07:50:02
阅读次数:
4788
网页访问常用到库: requests(网页请求) BeautifulSoup(从网页抓取数据) selenium(模拟浏览器行为) PhantomJS(虚拟浏览器) 定时爬取数据: 断线重连解决方法: 引入新函数reloading() ...
分类:
编程语言 时间:
2017-01-01 07:39:53
阅读次数:
204
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...
分类:
编程语言 时间:
2016-12-30 10:55:19
阅读次数:
506
最近用Python的BeautifulSoup4、Scrapy分别对以前写的spider进行优化,发现python3.5后这些库变化了很多,遇到了许多问题,在这里做一下总结 ...
分类:
编程语言 时间:
2016-12-27 11:42:43
阅读次数:
690
BeautifulSoup支持最常用的CSS selectors,这是将字符串转化为Tag对象或者BeautifulSoup自身的.select()方法。 本篇所使用的html为: 举例,你可以这样搜索便签: 另外,你也可以搜索在其他父标签内部的标签,即通过标签的所属关系寻找标签: 可以直接寻找在其 ...
分类:
Web程序 时间:
2016-12-21 07:37:11
阅读次数:
454