码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
python核心编程中网络爬虫的例子
1 #!/usr/bin/env python 2 3 import cStringIO # 4 import formatter # 5 from htmllib import HTMLParser ...
分类:编程语言   时间:2014-07-22 22:58:15    阅读次数:284
Python学习笔记——文件操作
这几天一直在帮一个博士做实验,负责的是数据处理这部分的东西。因为用python做数据处理时会时常做一些文件操作,所以我学习了一下Python的文件操作。今天刚好有空,就把东西总结一下。 一、打开文件 首先,要对文件进行操作需要打开文件,这里用到了open函数。 f = open(filen...
分类:编程语言   时间:2014-07-19 17:23:39    阅读次数:224
data audit on hadoop fs
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:其他好文   时间:2014-07-18 17:33:40    阅读次数:246
iOS第三方类库之-GDataXMLNode
一、GDataXMLNode说明GDataXMLNode是Google提供的用于XML数据处理的类集。该类集对libxml2--DOM处理方式进行了封装,能对较小或中等的xml文档进行读写操作且支持XPath语法。使用方法: 1、获取GDataXMLNode.h/m文件,将GDataXMLNode....
分类:移动开发   时间:2014-07-18 15:31:09    阅读次数:210
(转)python下很帅气的爬虫包 - Beautiful Soup 示例
官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正...
分类:编程语言   时间:2014-07-18 11:35:42    阅读次数:287
JAVA编程思想(1) - 一切都是对象
-“如果我们说另一种不用的语言,那么我们就会发觉一个有些不同的世界” 1. 用引用操纵对象        每种编程语言都有自己的数据处理方式。有些时候,程序员必须时刻留意准备处理的是什么类型。您曾利用一些特殊语法直接操作过对象,或处理过一些间接表示的对象吗(C或C++里的指针)? 所有的这一切在JAVA里都得到了简化。在JAVA里一切都被视为对象,尽管是一切都被看成对象,但操纵的标识...
分类:编程语言   时间:2014-07-18 11:06:11    阅读次数:200
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:数据库   时间:2014-07-17 17:14:21    阅读次数:292
Hive架构层面优化之四 常用复杂/低效的统计从源上给出,以避免上层作业过多计算
案例一:trackinfo,基础表处理常用的低性能UDF背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据、爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的...
分类:其他好文   时间:2014-07-17 13:09:44    阅读次数:226
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:数据库   时间:2014-07-16 17:09:20    阅读次数:289
(插播)网络爬虫,抓取你想要得东西。
最近,有个朋友说,想在一些页面上获取一些关键性得信息。比如,电话,地址等等。一个个页面去找 又很麻烦。这时候,想起了 何不去用“爬虫”去抓取一些想要得东西。省事,省里。好,今天 我们就讲讲,关于爬虫得一些东西。 这里 自己也是,看了一些关于爬虫得知识,正好,这几日闲来没事。做了一个功能小得爬虫。 这里是使用 java来进行编写得  首先 我们来介绍下。使用得框架,jdk1.6,...
分类:其他好文   时间:2014-07-16 10:08:54    阅读次数:267
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!