码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
linux内核--进程管理
进程就是处理执行期的程序(目标代码存放在某种存储介质上)。查进程并不仅仅局限于一段可执行程序代码。通常进程包括:打开的文件挂起的信号内核内部数据处理器状态地址空间一个或多个执行线程存放全局变量的数据段对linux而言,线程是特殊的进程,并不特别区分。在现代操作系..
分类:系统相关   时间:2014-09-08 03:19:26    阅读次数:398
Centos下安装Scrapy
Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。安装环境:centos5.4python2.7.3安装步骤:1.下载python2.7http://www.python.org/ftp/python/2.7.3...
分类:其他好文   时间:2014-09-07 18:24:45    阅读次数:317
新浪微博爬虫设计(Python版)
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬..
分类:编程语言   时间:2014-09-07 03:22:35    阅读次数:670
【设计优化】-使用缓存(Cache)提高程序性能
缓存(Cache)就是一块用来存放数据的内存空间。主要作用是暂存数据处理结果,并提供下次访问使用。 缓存的使用非常普遍,比如,浏览器都会在本地缓存页面,从而减少HTTP 的访问次数。又如服务器系统开发时,设计人员为一些核心的 API 加上缓存,从而提高系统的缓存时间。 最简单的缓存实现可以使用 HashMap 。当然,这样做会有很多问题,如何时清理无效的数据;如何防止缓存数据过多而导致内存溢出等。一个稍好的方案是使用 WeakHashMap,使用弱引用维护一张哈希表,而且可以...
分类:其他好文   时间:2014-09-06 18:45:14    阅读次数:314
干货:VLDB论文摘要-阿里技术突破性创新
阿里技术突破性创新 世界顶级大规模数据处理分析管理会议VLDB(VERY LARGE DATA BASE)于9月1日至5日在杭州举办,该会议也是也是大数据云计算领域的盛会,阿里巴巴两个团队在这个会议上分别发表论文。两篇论文分别描述了在超大规模分布式集群环境下如何保持性能稳定,以及构建大规模的数据.....
分类:数据库   时间:2014-09-06 17:16:53    阅读次数:334
核心控制芯片选型建议书(中低端)
核心控制芯片选型建议书核心控制芯片选型可简分了(1)低端控制(2)高中端控制(3)高端控制。分类是依据控制任务的大小、数据处理量、数据处理速率要求来分类的。低端控制:51、AVR、cortex-M0建议:cortex-M0理由:F0的定位是8位MCU的取代者。为什么?第一,Cortex-M0是ARM...
分类:其他好文   时间:2014-09-05 17:55:51    阅读次数:194
正则表达式和python的re模块
正则表达式和python的re模块 By 钟桓  9月 4 2014 更新日期:9月 4 2014 文章目录 1. 什么是正则表达式2. 元字符使用一览表:3. 字符转义4. 重复5. 字符类6. 分支条件7. 分组8. re模块 8.0.1. compile8.0.2. match和search8.0.3. split8.0.4. findall8.0.5. findite...
分类:编程语言   时间:2014-09-05 11:29:41    阅读次数:309
lob类型数据处理 java.lang.IllegalStateException: No LobHandler found for configuration
1 、MySQL处理数据库中lob类型数据,如longblob类型;2、实体类定义: private byte[] clientFile;3、映射文件定义: 4、如果在spring上要使用Struts中自带的上传功能必须在spring的配置文件中加以声明.否者将会出现java....
分类:编程语言   时间:2014-09-04 20:41:50    阅读次数:613
PHP大数据处理要注意的
1. 传递值使用引用传递$a = get_large_array();pass_to_function(&$a);这样是传递变量的引用而不是拷贝2.将大数据存在类的变量中class A{function first(){$this->a = get_large_array();$this->pass...
分类:Web程序   时间:2014-09-04 16:39:29    阅读次数:140
Java中正则表达式、模式匹配与信息抽取
引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
分类:编程语言   时间:2014-09-04 16:30:19    阅读次数:186
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!