搜索关键字：爬虫数据处理，搜索到15133个结果！码迷,mamicode.com！

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取，所以，需要一个分布式搜索引擎，用来对网络...

分类：其他好文时间：2014-08-30 23:13:50 阅读次数：434

update basplumain set dptid=1delete from basdept where id!=1insert into basdept (dptno,dptname)select dptno,dptname from lhflm update basdept set pid=...

分类：其他好文时间：2014-08-30 17:40:09 阅读次数：155

[python]利用urllib+urllib2解决爬虫分页翻页问题

最近由于公司的自动化测试工具需要将测试结果导出到excel中，奈何没有学SSH，导致无法在工具本身中添加（工具是开发做的），故转而使用python爬虫来做，开发过程中遇到了一个问题：由于测试结果太多，需要翻页，而翻页时网址没有变化，这就导致抓取的时候没法依照网址去爬，遂去网上查找解决方法，最后找....

分类：编程语言时间：2014-08-30 11:07:39 阅读次数：4116

第三章数据处理

第三章处理数据3.1简单变量 3.1.1变量名 C++标识符命名规则如下： ● 在名称中只能使用字母字符、数字和下划线 ●名称的第一个字符不能是数字 ● 区分大写字母和小写字母 ●不能将C++关键字用作名称 ●以两个下划线或下划线和大写字母开始的名称被保留给实现（编译器及...

分类：其他好文时间：2014-08-28 22:27:06 阅读次数：302

JAVA爬虫WebCollector教程列表

JAVA爬虫WebCollector教程列表入门教程： WebCollector入门教程（中文版）用WebCollector对指定URL进行爬取和解析 JAVA爬虫Nutch、WebCollector的正则约束实例：用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）内核：利用WebCollector爬虫...

分类：编程语言时间：2014-08-28 14:52:39 阅读次数：453

JAVA爬虫Nutch、WebCollector的正则约束

每种爬虫的正则约束系统都有一些区别，这里拿Nutch、WebCollector两家爬虫的正则系统做对比。爬虫爬取时，需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束................

分类：编程语言时间：2014-08-28 13:18:59 阅读次数：569

布隆过滤器的学习整理

bloomFilter是70年代提出来的一个利用时间，错误率来换取空间的应用。应用在大数据量的情况下，比如爬虫抓取的大量url，用来判断哪些url是已经爬取过的。m =>使用的散列长度，这个值通常用来创建BitSet的长度，java.util.BitSetn =>待散列的字符串的个数。k =>使用的...

分类：其他好文时间：2014-08-28 12:52:49 阅读次数：159

php 创建简单的Restful WebAPI（一）

Restful API现在非常的流行啊，目前工作的项目也使用了ASP.NETWebAPI技术。用下来的感觉是前台数据的展现层可以和后台数据的处理层解耦性很好。所以在开发阶段，前台数据展现页面布局和后台数据处理调整起来都很方便。Restful API利用了http协议，配合一些类似backbone.....

分类：Windows程序时间：2014-08-27 23:11:08 阅读次数：209

AWK概述及常用格式

AWKAWK是一种用于处理文本的编程语言工具。它是Linux中也是任何环境中现有的功能最强大的数据处理引擎之一。基本语法awk[options]‘program‘filefile...awk[options]‘PATTERN{action}‘filefile...-FCHAR：定义输入分隔符1、awk的输出(1)各项目之间使用逗号分隔，而输出时则使用..

分类：其他好文时间：2014-08-27 18:57:18 阅读次数：367

Java抓取利用JS动态加载的网页

最近实验室项目涉及到很多爬虫相关的东西，在此做个整理，爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax，普通爬虫无法获取js生成的内容。　对于普通的静态网页，HttpClient是Java中抓取网页的利器，然而针对像京东商品页面这样的页面却无能为力，例如：htt...

分类：编程语言时间：2014-08-27 18:05:08 阅读次数：1308

共15133条上一页 1 ... 1469 1470 1471 1472 1473 ... 1514 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)