1 #!/usr/bin/env python 2 3 import cStringIO # 4 import formatter # 5 from htmllib import HTMLParser ...
分类:
编程语言 时间:
2014-07-22 22:58:15
阅读次数:
284
这几天一直在帮一个博士做实验,负责的是数据处理这部分的东西。因为用python做数据处理时会时常做一些文件操作,所以我学习了一下Python的文件操作。今天刚好有空,就把东西总结一下。 一、打开文件 首先,要对文件进行操作需要打开文件,这里用到了open函数。 f = open(filen...
分类:
编程语言 时间:
2014-07-19 17:23:39
阅读次数:
224
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:
其他好文 时间:
2014-07-18 17:33:40
阅读次数:
246
一、GDataXMLNode说明GDataXMLNode是Google提供的用于XML数据处理的类集。该类集对libxml2--DOM处理方式进行了封装,能对较小或中等的xml文档进行读写操作且支持XPath语法。使用方法: 1、获取GDataXMLNode.h/m文件,将GDataXMLNode....
分类:
移动开发 时间:
2014-07-18 15:31:09
阅读次数:
210
官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正...
分类:
编程语言 时间:
2014-07-18 11:35:42
阅读次数:
287
-“如果我们说另一种不用的语言,那么我们就会发觉一个有些不同的世界”
1. 用引用操纵对象
每种编程语言都有自己的数据处理方式。有些时候,程序员必须时刻留意准备处理的是什么类型。您曾利用一些特殊语法直接操作过对象,或处理过一些间接表示的对象吗(C或C++里的指针)?
所有的这一切在JAVA里都得到了简化。在JAVA里一切都被视为对象,尽管是一切都被看成对象,但操纵的标识...
分类:
编程语言 时间:
2014-07-18 11:06:11
阅读次数:
200
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:
数据库 时间:
2014-07-17 17:14:21
阅读次数:
292
案例一:trackinfo,基础表处理常用的低性能UDF背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据、爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的...
分类:
其他好文 时间:
2014-07-17 13:09:44
阅读次数:
226
python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:
数据库 时间:
2014-07-16 17:09:20
阅读次数:
289
最近,有个朋友说,想在一些页面上获取一些关键性得信息。比如,电话,地址等等。一个个页面去找 又很麻烦。这时候,想起了 何不去用“爬虫”去抓取一些想要得东西。省事,省里。好,今天 我们就讲讲,关于爬虫得一些东西。
这里 自己也是,看了一些关于爬虫得知识,正好,这几日闲来没事。做了一个功能小得爬虫。
这里是使用 java来进行编写得 首先 我们来介绍下。使用得框架,jdk1.6,...
分类:
其他好文 时间:
2014-07-16 10:08:54
阅读次数:
267