码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
storm 0.9.2单机性能测试
最近在使用storm做了一下数据处理性能测试。 ? ? Topology结构:spout输出80万数据(csv格式);bolt1解析csv,拆分各信息段;bolt2按bolt1中某个字段汇总,累加记数后入库(入库触发频率:60s)。 ? ?...
分类:其他好文   时间:2014-09-23 17:43:35    阅读次数:179
东南大学借“大数据”助丁肇中找到暗物质存在的新证据
近日,诺贝尔奖得主、美籍华人物理学家丁肇中领导的阿尔法磁谱仪项目,在欧洲核子研究中心公布了最新研究成果,进一步显示暗物质可能存在。这一成果发表在最新一期美国《物理评论快报》上,再次让世界轰动。据了解,丁肇中主持的AMS实验通过收集宇宙射线,依靠云计算和大数据处理,来寻找暗物质留下的证据,其中一个重要...
分类:其他好文   时间:2014-09-23 15:31:04    阅读次数:395
小爬虫,抓取某贴吧内所有帖子的图片
#!/usr/bin/env python#-*- coding:utf8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import urllib,urllib2import refrom bs4 import BeautifulSoup...
分类:其他好文   时间:2014-09-23 13:35:14    阅读次数:194
列式数据库的简单分析
转自:列式数据库的简单分析这些天看数据仓库的内容,发现一个新内容——列式存储。曾经有想过把数据库行列转置作成索引,不过没有深想,没想到列式数据库已经开始发展起来了。首先看下WIKI上对列式数据库的解释:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合与批量数据处理和即席查询。相对应的是行式...
分类:数据库   时间:2014-09-23 12:11:04    阅读次数:302
Python实际应用-数据处理(二) 数据特定格式变化
Python实际应用-数据处理(二) 数据特定格式变化...
分类:编程语言   时间:2014-09-22 23:36:43    阅读次数:265
每日一记--2014.9.22
说好的每日一记呢,哎,上周接到了老师的任务,要把项目中的后台数据处理代码读懂,于是就没有时间每天搞段小代码来写写了。但是通过这一周,自己也学到了不少东西。1. 首先是如何读别人写的代码: 先看 improt 大概用到什么类; 然后看main,有什么变量的初始化(...
分类:其他好文   时间:2014-09-22 22:36:43    阅读次数:216
[Python学习] 专题二.条件语句和循环语句的基础知识
前面讲述了"专题一.函数的基础知识",而这篇文章讲述的Python的条件语句和循环语句的基础知识.主要内容包括: 1.条件语句:包括单分支、双分支和多分支语句,if-elif-else 2.循环语句:while的使用及简单网络刷博器爬虫 3.循环语句:for的使用及遍历列表、元组、文件和字符串 基础知识仅供大家学习...
分类:编程语言   时间:2014-09-22 21:58:33    阅读次数:348
python解析xml
了解xml :         解析之前首先对xml 做个了解。         来自维基百科的解释:                    XML设计用来传送及携带数据信息,不用来表现或展示数据,HTML语言则用来表现数据,所以XML用途的焦点是它说明数据是什么,以及携带数据信息。         如果你已经了解xml,可以跳过这一部分。        xml是一种描述层次结构化数...
分类:编程语言   时间:2014-09-22 21:43:53    阅读次数:347
怎样用java编程抓取动态生成的网页
刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中,再去浏览器查看源码果然是这样的,在源码中确实没有我需要的数据,看来不是我程序写错了,接下来让人身心疲惫的事情来...
分类:编程语言   时间:2014-09-22 20:02:53    阅读次数:301
php爬虫的两种思路
写php爬虫可能最大的问题就是php脚本执行时间的问题了,对于这个问题,我找到了两种解决方法。 第一种通过代码set_time_limit(0)或者ini_set("max_execution_time", "1800");来执行。 对于技术的追求当然不止如此。 防止因客户端断开连接终止脚...
分类:Web程序   时间:2014-09-22 18:56:03    阅读次数:209
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!