最近玩爬虫,先把python解析器 beautifulsoup 练练 这个 tainiu.html 是从百度网盘里拷贝一段html from bs4 importBeautifulSoup with open('tainiu.html','r',encoding ='UTF-8')as f: htm ...
                            
                            
                                分类:
编程语言   时间:
2017-01-17 23:30:49   
                                阅读次数:
184
                             
                    
                        
                            
                            
                                结合个人需求,从某个网站获取一些数据,发现网页链接是隐藏的,需要通过浏览器看后面的代码来获取真实的链接。 下面这个案例,直接是从真实的链接中爬去数据。 此外,发现用pandas的read_html不能直接解析“lxml”的表格,有待后续研究。 另外,爬去的数据发现有很多空格符号,主要是 "\r"、" ...
                            
                            
                                分类:
编程语言   时间:
2017-01-17 07:42:46   
                                阅读次数:
278
                             
                    
                        
                            
                            
                                    一开始使用了beautifulSoup的get_text()进行字符串的提取,后来一直提取失败,并提示错误为TypeError: 'NoneType' object is not callable 返回了none类型,可能是对Span标签内容的提取产生错误,于是采用name.string进行字符的提 ...
                            
                            
                                分类:
编程语言   时间:
2017-01-12 08:43:45   
                                阅读次数:
300
                             
                    
                        
                            
                            
                                    因为做网页爬虫,需要用到一个爬新闻的BeautifulSoup 的包,然后再关网上下的是whl包,第一次装,虽然花了点时间,最后还是装上去了,记录一下,方便下次。 先发一下官方文档地址。http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 建议有 ...
                            
                            
                                分类:
编程语言   时间:
2017-01-08 12:43:39   
                                阅读次数:
255
                             
                    
                        
                            
                            
                                    # -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Enviroment: Python 2.7, Windows 7 (32bit), Chinese Langua ...
                            
                            
                                分类:
其他好文   时间:
2017-01-03 16:45:27   
                                阅读次数:
255
                             
                    
                        
                            
                            
                                1、安装需要的库 bs4 beautifulSoup requests lxml如果使用mongodb存取数据,安装一下pymongo插件 2、常见问题 1> lxml安装问题 如果遇到lxml无法安装问题,参考知乎上的答案: 首先,安装wheel,命令行运行:pip install wheel其次 ...
                            
                            
                                分类:
其他好文   时间:
2017-01-03 07:50:02   
                                阅读次数:
4788
                             
                    
                        
                            
                            
                                网页访问常用到库: requests(网页请求) BeautifulSoup(从网页抓取数据) selenium(模拟浏览器行为) PhantomJS(虚拟浏览器) 定时爬取数据: 断线重连解决方法: 引入新函数reloading() ...
                            
                            
                                分类:
编程语言   时间:
2017-01-01 07:39:53   
                                阅读次数:
204
                             
                    
                        
                            
                            
                                这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对...
                            
                            
                                分类:
编程语言   时间:
2016-12-30 10:55:19   
                                阅读次数:
506
                             
                    
                        
                            
                            
                                最近用Python的BeautifulSoup4、Scrapy分别对以前写的spider进行优化,发现python3.5后这些库变化了很多,遇到了许多问题,在这里做一下总结 ...
                            
                            
                                分类:
编程语言   时间:
2016-12-27 11:42:43   
                                阅读次数:
690
                             
                    
                        
                            
                            
                                    BeautifulSoup支持最常用的CSS selectors,这是将字符串转化为Tag对象或者BeautifulSoup自身的.select()方法。 本篇所使用的html为: 举例,你可以这样搜索便签: 另外,你也可以搜索在其他父标签内部的标签,即通过标签的所属关系寻找标签: 可以直接寻找在其 ...
                            
                            
                                分类:
Web程序   时间:
2016-12-21 07:37:11   
                                阅读次数:
454