码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
Nutch源码阅读进程3---fetch
本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程,其中包括通过生产者-消费者的模型解决爬虫问题,nutch如何爬取页面以及对于不同的返回状态做相应的处理机制,其中还涉及到一些多线程的知识。
分类:其他好文   时间:2014-08-02 17:55:13    阅读次数:290
海量数据处理方法
一、Bloom?filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点:   对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有h...
分类:其他好文   时间:2014-08-01 16:21:22    阅读次数:286
Java 爬虫
import java.awt.BorderLayout;import java.awt.Cursor;import java.awt.Font;import java.awt.GridBagConstraints;import java.awt.GridBagLayout;import java....
分类:编程语言   时间:2014-07-31 12:50:26    阅读次数:318
ASP.NET文件组成(转载于Owen的BLOG)
一.扩展名:.aspx:窗体文件,为前台程序。.cs文件:类文件,主要为后台数据处理,供所有的.aspx文件的后台应用。.asmx文件:用于创建从其他应用程序使用的web服务的类。.css文件:样式表单,设置界面的整体风格。二.特殊文件夹:App_Browers:包含标识个别浏览器,并确定其功能的浏...
分类:Web程序   时间:2014-07-31 12:32:16    阅读次数:297
守护进程和supervisor
守护进程和supervisor 前言 接触守护进程已经很久了,但是在工作中有时候却经常忘记它。这次是在需要后台跑一个十几万的数据处理工作,耗时较长的时候,习以为常的通过&将脚本放到后台去执行,将标准输出和错误输出重定向到日志文件。然后干其他的事情,却发现进程莫名奇妙的死掉,即使已经在所有可能出现异常的地方都比较注意,然后在合适的地方加上了try except这样的异常处理。但是任何异常...
分类:其他好文   时间:2014-07-31 09:57:16    阅读次数:231
CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据
本文参考链接详细介绍如何使用Jsoup包抓取HTML数据,是一个纯java工程,并将其打包成jar包。希望了解如何用java语言爬虫网页的可以看下。 杂家前文就又介绍用HTTP访问百度主页得到html的string字符串,但html的文本数据如果不经过处理就是个文本字符串没有任何效果的。所谓的浏览器就是负责将文本的html“翻译”成看到的界面。在前文有介绍,这个csdn的客户端app分首页、业界、...
分类:移动开发   时间:2014-07-31 03:03:25    阅读次数:430
Oracle中Cursor的用法
关键字?概念?类型?异常处理一 概念游标是SQL的一个内存工作区,由系统或用户以变量的形式定义。游标的作用就是用于临时存储从数据库中提取的数据块。在某些情况下,需要把数据从存放在磁盘的表中调到计算机内存中进行处理,最后将处理结果显示出来或最终写回数据库。这样数据处理的速度才会提高,否则频繁的磁盘数据...
分类:数据库   时间:2014-07-30 23:29:05    阅读次数:408
java 爬虫在 netbeans 里运行和单独运行结果不一样
java 程序在 netbeans 中运行与单独运行的结果不一样...
分类:编程语言   时间:2014-07-30 14:53:23    阅读次数:353
贪心算法-霍夫曼编码
霍夫曼编码是一种无损数据压缩算法。在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损...
分类:其他好文   时间:2014-07-30 00:46:12    阅读次数:526
Windows 环境下运用Python制作网络爬虫
import webbrowser as web import time import os i = 0 MAXNUM = 1 while i <= MAXNUM: web.open_new_tab('要刷的网络地址') os.system('taskkill /F /IM 浏览器文件名(chrome.exe)') i += 1 else:...
分类:编程语言   时间:2014-07-29 22:08:12    阅读次数:324
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!