码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
Scrum Meeting 3 -2014.11.8
开始了apec的放假,希望大家能处理好工作与休息的时间分配,不要玩疯了啊。各任务都开始实现了自己的算法,需要部署的服务器我也进去看了看情况,希望最后能部署成功。最近发现的一些关于上一届实现的问题,与第一小项爬虫小组讨论过后,决定还是让有一定爬虫编程经验的黄莫源去查看爬虫与我们的数据库接口是否正确。他...
分类:其他好文   时间:2014-11-08 13:40:03    阅读次数:223
WebCollector提供免费代理
WebCollector论坛每10分钟,会推送可用代理,这些代理都是在推送前几分钟通过测试的代理。 爬虫使用最新的代理,可以大大减少自己清洗代理的时间。 代理推送地址: http://www.brieftools.info/bbs/index.php?c=thread&fid=12...
分类:Web程序   时间:2014-11-07 23:31:25    阅读次数:332
网页抓取:PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon 项目地址: http://code.google.com/p/ganon/ 文档: http://code.google.com/p/ganon/w/list 测试:抓取我的网站首页所有class属性值是focus的d...
分类:Web程序   时间:2014-11-07 22:09:41    阅读次数:264
Daily Scrum 11.7
明后两天周六日,按照TFS的日常安排应该是休息,所以让他们自由完成已经分配的任务。姓名今日任务黄新越提取爬取网页的关键字并输出到接口刘垚鹏程序总架构的修改与多线程的学习王骜多线程学习安康学习UI设计林旭鹏学习UI设计马佐霖爬虫程序现有BUG的测试黄伟龙爬虫程序现有BUG的测试李桐爬虫程序现有BUG的...
分类:其他好文   时间:2014-11-07 22:03:58    阅读次数:208
《BI那点儿事》数据流转换——模糊查找转换
BI项目中经常会有一些提取,转换,数据处理(ELT)的工作,其中最主要的是处理过赃数据。假设在项目中我们向数据库中注入了测试数据,但是通过一个外键从另外一个表中载入数据的时候没有对应的数据,那么这一行就是赃数据。这时候可以使用SQL中的Sound-Ex,full-text,相似度算法等方法查找。这种...
分类:其他好文   时间:2014-11-07 18:53:37    阅读次数:308
Node.js 爬虫,自动化抓取文章标题和正文
持续进行中。。。目标:动态User-Agent模拟浏览器 √支持Proxy设置,避免被服务器端拒绝√支持多核模式,发挥多核CPU性能 √支持核内并发模式 √自动解码非英文站点,避免乱码出现 √自动队列管理,持续化PUSH √自动抓取文章标题和正文√性能优化测试用例,自动化测试我的测试环境:9 台安装...
分类:Web程序   时间:2014-11-07 18:27:04    阅读次数:218
基于HttpClient实现网络爬虫~以百度新闻为例
以百度新闻为例,介绍如何基于HttpClient去采集网络新闻资源信息。...
分类:Web程序   时间:2014-11-07 14:54:11    阅读次数:552
一个小型的网页抓取系统的架构设计
一个小型的网页抓取系统的架构设计          网页抓取服务是互联网中的常用服务,在搜索引擎中spider(网页抓取爬虫)是必需的核心服务。搜索引擎的衡量指标“多、快、准、新”四个指标中,多、快、新都是对spider的要求。搜索引擎公司比如google、baidu都维护者自己负责的spider系统。当然他们的系统很复杂,在这里我们介绍一个小型的网页抓取系统的架构,目标是快速的抓取某个或者...
分类:Web程序   时间:2014-11-07 13:08:15    阅读次数:203
python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本需要 BeautifulSoup 和 requests 两个库(我已经把注释写得尽量详细)这个程序的执行速度...
分类:编程语言   时间:2014-11-07 09:48:22    阅读次数:227
python解决一些错误换行问题
有时候会碰到一些错误换行的数据,比如正确数据应该是:20141010,aaa,bbb,ccc,ddd,eee但是实际给过来的数据是:20141010,aaa,bbb,ccc,ddd,eee这样出现错误换行,在进行一些数据处理时就不能通过解决办法:import redfile=open('tt.txt...
分类:编程语言   时间:2014-11-07 09:46:36    阅读次数:225
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!