码迷,mamicode.com
首页 >  
搜索关键字:爬虫 pyton    ( 10534个结果
gevent: AssertionError: Impossible to call blocking function in the event loop callback
今天在用爬虫时gevent报了AssertionError: Impossible to call blocking function in the event loop callback异常,很奇怪,难道是patch_socket惹的货,因为之前没有使用patch_socket是正常的,代码简化如下import urllib import gevent from gevent.monkey im...
分类:其他好文   时间:2014-11-12 16:40:58    阅读次数:340
Python抓取单个网页中所有的PDF文档
Github博文地址,此处更新可能不是很及时。 1.背景 最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构与算法。结合最近在学英语,然后干脆就用英文喽。然后选定一本参考书籍《Data Structures and Algorithms in Java》。 刚开始看还是蛮吃力的,慢慢来。由于之...
分类:编程语言   时间:2014-11-12 00:48:04    阅读次数:285
python爬虫----(scrapy框架提高(1),自定义Request爬取)
最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/ ????结合官方文档例子,简单整理一下: import?scrapy from...
分类:编程语言   时间:2014-11-10 18:17:09    阅读次数:251
Web漏洞扫描器-UNISCAN 6.2发布
UNISCAN是老外写的一款基于Perl编写的web漏洞扫描器,目前版本为6.2。UNISCAN特点:通过爬虫识别网站页面多线程可控制线程的最大数量可控制爬虫爬取的页面可忽略指定文件扩展名可设置GET、POST方式支持SSL支持代理支持google搜索的站点列表支持bing搜索的站点列表支持扩展插件..
分类:Web程序   时间:2014-11-10 01:19:16    阅读次数:198
TeamWork#3,Week5,Scrum Meeting 11.9
由于经验不足和储备知识不够,最近我们的项目遇到了一些技术问题,需要对项目进行重新计划。我们总结了经验教训,找出了问题所在,明确了要补充的知识,加紧学习,将会在一周之内解决相关问题。成员已完成待完成彭林江爬虫因技术问题正在补充相关知识更换爬虫结构郝倩爬虫因技术问题正在补充相关知识更换爬虫结构高雅智管理...
分类:其他好文   时间:2014-11-09 23:37:08    阅读次数:249
Scrum Meeting 3 -2014.11.8
开始了apec的放假,希望大家能处理好工作与休息的时间分配,不要玩疯了啊。各任务都开始实现了自己的算法,需要部署的服务器我也进去看了看情况,希望最后能部署成功。最近发现的一些关于上一届实现的问题,与第一小项爬虫小组讨论过后,决定还是让有一定爬虫编程经验的黄莫源去查看爬虫与我们的数据库接口是否正确。他...
分类:其他好文   时间:2014-11-08 13:40:03    阅读次数:223
WebCollector提供免费代理
WebCollector论坛每10分钟,会推送可用代理,这些代理都是在推送前几分钟通过测试的代理。 爬虫使用最新的代理,可以大大减少自己清洗代理的时间。 代理推送地址: http://www.brieftools.info/bbs/index.php?c=thread&fid=12...
分类:Web程序   时间:2014-11-07 23:31:25    阅读次数:332
网页抓取:PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon 项目地址: http://code.google.com/p/ganon/ 文档: http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值是focus的d...
分类:Web程序   时间:2014-11-07 22:09:41    阅读次数:264
Daily Scrum 11.7
明后两天周六日,按照TFS的日常安排应该是休息,所以让他们自由完成已经分配的任务。姓名今日任务黄新越提取爬取网页的关键字并输出到接口刘垚鹏程序总架构的修改与多线程的学习王骜多线程学习安康学习UI设计林旭鹏学习UI设计马佐霖爬虫程序现有BUG的测试黄伟龙爬虫程序现有BUG的测试李桐爬虫程序现有BUG的...
分类:其他好文   时间:2014-11-07 22:03:58    阅读次数:208
Node.js 爬虫,自动化抓取文章标题和正文
持续进行中。。。目标:动态User-Agent模拟浏览器 √支持Proxy设置,避免被服务器端拒绝√支持多核模式,发挥多核CPU性能 √支持核内并发模式 √自动解码非英文站点,避免乱码出现 √自动队列管理,持续化PUSH √自动抓取文章标题和正文√性能优化测试用例,自动化测试我的测试环境:9 台安装...
分类:Web程序   时间:2014-11-07 18:27:04    阅读次数:218
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!