之前用python写爬虫,都是自己用requests库请求,beautifulsoup(pyquery、lxml等)解析。没有用过高大上的框架。早就听说过Scrapy,一直想研究一下。下面记录一下我学习使用Scrapy的系列代码及笔记。 安装 Scrapy的安装很简单,官方文档也有详细的说明 htt ...
分类:
其他好文 时间:
2016-12-20 20:16:02
阅读次数:
435
今天在写爬虫的时候,发现了一个诡异的事情,使用str方法强制转换一个BeautifulSoup对象成字符串的时候报错了,提示是“maximumrecursiondepthexceededwhilecallingaPythonobject”,意思大致是“当调用该对象超过最大递归深度”报错如下:Traceback(mostrecentcalllast):
File..
分类:
编程语言 时间:
2016-12-19 22:24:49
阅读次数:
337
Requests beautifulsoup lxml logging gevent django Bottle numpy pandas sklearn pyopencv opencv_python?3.1.0?cp35?cp35m?win_amd64.whl (http://www.lfd.uc ...
分类:
编程语言 时间:
2016-12-19 08:57:45
阅读次数:
220
BeautifulSoup的文档见 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 其中.contents 会将换行也记录为一个子节点 输出: ['\n', <p class="title"><b>The Dormouse's st ...
分类:
其他好文 时间:
2016-12-11 12:59:23
阅读次数:
152
一 安装BeautifulSoup 安装Python的包管理器pip 然后运行 $pip3 install beautifulsoup 在终端里导入它测试下是否安装成功 >>>from bs import BeautifulSoup 如果没有错误,说明导入成功了 简单例子 http://sc.chi ...
分类:
其他好文 时间:
2016-12-04 07:12:18
阅读次数:
191
import re from bs4 import BeautifulSoupdoc = ['<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragrap ...
分类:
其他好文 时间:
2016-12-03 23:24:16
阅读次数:
231
python浅谈正则的常用方法覆盖范围70%以上 上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去找内容,因为容易理解也方便,),而是正则用好用精通的很难(看过正则表的应该都知道,里面符号对应的方法 ...
分类:
编程语言 时间:
2016-12-03 21:28:33
阅读次数:
186
可以直接参考 BS4文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#find-all 注意的是: 1.有些tag属性在搜索不能使用,比如HTML5中的 data-* 属性: data_soup = Beau ...
分类:
其他好文 时间:
2016-12-03 20:48:36
阅读次数:
535
用Python写一个爬虫,用BeautifulSoup解析html。其中一个地方需要抓取下面两类标签:<dd class="ab " >blabla1</dd><dd class="ab cd" >blabla2</dd>第一类class的值的末尾有一个空格。第二类class的值中间有一个空格,而且 ...
分类:
其他好文 时间:
2016-12-02 01:06:32
阅读次数:
321
python2.7 爬虫初学习 模块:BeautifulSoup requests 1、获取新浪国内新闻标题 2、获取新闻url 3、还没想好,想法是把第2步的url 获取到下载网页源代码 再去分析源代码 获取新闻详情页 发表时间 新闻来源等数据 结合MySQLdb模块导入到数据库 4、疑惑:期望是 ...
分类:
编程语言 时间:
2016-12-01 01:24:21
阅读次数:
240