码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
Spark 颠覆 MapReduce 保持的排序记录
在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署。在内存中数 据处理上,Apache Spark比MapReduce更加高效已经得到广泛认识;但是当数据量远超内存容量时,我们也听到了一些机构在Spark使用 上的困扰。因此,我们与Spark社区一起,投入了大量的精力做Spark稳定性、扩展性、性能等方面的提升。既然Spa...
分类:编程语言   时间:2014-10-13 07:52:29    阅读次数:214
Java JSON处理类库Jackson
Jackson是一款为Java平台提供的一套数据处理类库工具,Jackson的主要功能是提供JSON解析和生成,另外,Jackson还提供额外的类库以支持处理Avro, CBOR, CSV, Smile, XML 和 YAML,功能十分强大,在Java中处理JSON数据非常不错。 相关的示例代码: { "name" : { "first" : "Joe", "last" : "Sixp...
分类:编程语言   时间:2014-10-12 20:46:28    阅读次数:219
python 批量下载美剧 from 人人影视 HR-HDTV
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫...
分类:编程语言   时间:2014-10-11 22:03:36    阅读次数:344
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息。爬虫主要是获取页面,然后对页面进行解析,解析出自己所需要的信息进行进一步分析和挖掘。首先需要学习python的正则表...
分类:编程语言   时间:2014-10-11 20:13:06    阅读次数:260
数据中心由“限”转“疏”
2014年7月,北京市政府正式印发了《北京市新增产业的禁止和限制目录(2014年版)》,对北京市数据中心产业的发展提出了限制性发展措施。该目录中针对信息传输、软件和信息技术服务业门类提出的管理措施中明确指出:禁止新建和扩建呼叫中心、数据处理和存储服务中的银行卡中心、..
分类:其他好文   时间:2014-10-11 19:02:27    阅读次数:174
设计题
1.一个有10亿条记录的文本文件,已按照关键字排好序存储,设计算法,可以快速的从文件中查找指定关键字的记录。$10亿=10^9~2^30$,每行记录如果是1kB的话,总共是1TB。将文件分割成1000份,每份1G,load进内存作二分查找即可。2. 设计一个爬虫系统。3. 设计一个长连接手机云推送服...
分类:其他好文   时间:2014-10-11 17:12:05    阅读次数:160
std::map用法
Map是STL的一个关联容器,它提供一对一(其中第一个可以称为关键字,每个关键字只能在map中出现一次,第二个可能称为该关键字的值)的数据处理能力,由于这个特性,它完成有可能在我们处理一对一数据的时候,在编程上提供快速通道。这里说下map内部数据的组织,map内部自建一颗红黑树(一种非严格意义上的平衡二叉树AVL),这颗树具有对数据自动排序的功能,所以在map内部所有的数据都是有序的,后边我们会见...
分类:其他好文   时间:2014-10-11 17:08:36    阅读次数:401
爬虫功能
感觉写得有点烂,因为很多地方都需要做判断,而我不懂HTML语言,所以有些关键位置判断做得很潦草。什么都要学,为什么我这么菜。找个标签都要找很久。。。下一个版本马上就要出来了,修复了好多地方,好多BUG。。。
分类:其他好文   时间:2014-10-11 01:55:14    阅读次数:305
总结2
当技术达到一定的地步之后, 思维是关键 把一些基础的技术组合起来,运用起来, 而不是在去学习新的技术像我现在来讲,已经能看懂一些PHP 了, xss+csrf 或者php审计更契合当前的技术。 python +EXP 的编写和爬虫组合更棒, 而不是直接去学新的技术liunx是需要掌握 ,LIUNX是...
分类:其他好文   时间:2014-10-10 23:44:14    阅读次数:284
SQLSERVER随机数 随机范围处理方法
最近在弄数据库上的随机数,真是碰的我想死的心都有了,以前都是通过PHP的rand()函数去处理有范围的随机数,但是最近在处理百万级的大量数据处理的时候发现通过PHP太慢了,迫不得已,只有寻找SQL自带的处...
分类:数据库   时间:2014-10-10 21:23:04    阅读次数:270
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!