码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓  9月 4 2014 更新日期:9月 4 2014 文章目录 1. 介绍:2. 从简单语句中开始:3. 传送数据给服务器4. HTTP头—描述数据的数据5. 异常 5.0.1. URLError5.0.2. HTTPError5.0.3. 处理异常5.0.4. info和geturl 6. Opener和Handler7. Ba...
分类:编程语言   时间:2014-09-04 15:04:19    阅读次数:357
WeChall Training: WWW-Robots
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。 找到wechall的robots.txt    ht...
分类:其他好文   时间:2014-09-04 15:03:09    阅读次数:542
python正则表达式 1
re模块提供了一个郑则表达式的引擎接口,可以让你的Restring变异成对象并用它来进行匹配,这样效率比较高。附上例子让我们一块体验一下吧。以下是我写的类似与爬虫的小脚本,供大家参考#!/usr/bin/python#coding=utf-8importurllibimportreimportosdefgetHtmlData():returnurll..
分类:编程语言   时间:2014-09-04 03:05:28    阅读次数:173
基于Berkeley DB实现的持久化队列
转自:http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri...
分类:数据库   时间:2014-09-03 14:45:16    阅读次数:468
python使用异步任务celery出现异常崩溃时retry重试
前言:python下的celery是啥东西大家应该有了解,是一个异步的任务框架。话说,我以前写过一个报警平台的项目,也需要任务的扩展成分布式,当时总是觉得用celery不是那么太靠谱,所以就自己写了一个分布式的任务派发的系统。今个和朋友聊起了分布式爬虫,这哥们说任务有时候经..
分类:编程语言   时间:2014-09-03 02:42:47    阅读次数:1943
自制数据挖掘工具分析北京房价 (二) 数据清洗
上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:其他好文   时间:2014-09-01 22:32:33    阅读次数:347
用WebCollector爬取新浪微博数据
用WebCollector可以轻松爬取新浪微博的数据. 首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件). 具体步骤: 1.用浏览器打开 http://weibo.cn/pub/   这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...
分类:Web程序   时间:2014-09-01 19:39:03    阅读次数:345
Android开发之使用Web Service进行网络编程
Android应用通常都是运行在手机平台上,手机系统的硬件资源是有限的,不管是存储能力还是计算能力都有限,在Android系统上开发、运行一些单用户、小型应用是可能的, 但对于需要进行大量的数据处理、复杂计算的应用,还是只能部署在远程服务器上,Android 应用将只是充当这些应用的客户端。 为了让Android应用与远程服务器之间进行交互,可以借助子Java的RMI技术,但这要求远程服务器程序必须采用Java实现;也可以借助于CORBA技术,但这种技术显得过于复杂,除此之外,Web Service是一种不...
分类:移动开发   时间:2014-09-01 19:36:33    阅读次数:353
如何找出知乎的所有神回复
写一个爬虫,找出知乎的神回复
分类:其他好文   时间:2014-09-01 17:20:23    阅读次数:195
内存数据库
相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。同时,内存数据库抛弃了磁盘数据管理的传统方式,基于全部数据都在内存中重新设计了体系结构,并且在数据缓存、快速算法、并行操作方面也进行了相应的改进,所以数据处理速度比传统数据库的数据处理速度要快...
分类:数据库   时间:2014-09-01 17:09:03    阅读次数:305
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!