搜索关键字：爬虫数据处理，搜索到15133个结果！码迷,mamicode.com！

一个网站的诞生02--用Scrapy抓取数据

如果想抓数据，就需要有爬虫程序，业内叫crawler或者spider。有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助下写爬虫可以很快，几个小时就能写一个...

分类：Web程序时间：2014-08-04 17:37:47 阅读次数：285

Python实例 -- 爬虫

1 #coding="utf-8" 2 3 import urllib2 4 import re 5 import threading 6 import time 7 8 """ 9 抓取代理发布页的ip和port10 http://www.xici.net.co/nn/%d11 """12 ...

分类：编程语言时间：2014-08-04 02:00:36 阅读次数：313

android 适配器simpleadapter和baseadapter区别

android适配器simpleadapter和baseadapter设计网络程序或者数据处理显示程序的时候，常常会使用simpleadapter和baseadapter来实现。adapter是适配器模式，是数据和界面之间的桥梁。baseadapter是一个抽象的类，要使用必需为其定义子类并实现相关...

分类：移动开发时间：2014-08-04 01:40:56 阅读次数：364

python网络爬虫入门（二）——用python简单实现调用谷歌翻译

最近在看国外的文档，有些生词不认识。就用谷歌翻译来理解，用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客，发现几篇不错的，于是参考其他代码与自己的思路，简单的实现了下翻译的功能，代码如下： import re import urllib,urllib2 #----------模拟浏览器的行为，向谷...

分类：编程语言时间：2014-08-03 20:39:45 阅读次数：338

并发问题,锁,怎么处理死锁,脏数据处理

SQL Server死锁总结 ??1.?死锁原理 ????根据操作系统中的定义：死锁是指在一组进程中的各个进程均占有不会释放的资源，但因互相申请被其他进程所站用不会释放的资源而处于的一种永久等待状态。 ????死...

分类：其他好文时间：2014-08-03 18:14:46 阅读次数：332

Apache Crunch的设计 (上)

Apache Crunch是FlumeJava的实现，为不太方便直接开发和使用的MapReduce程序，开发一套MR流水线，具备数据表示模型，提供基础原语和高级原语，根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看，Crunch提供的许多计算原语，可以在Spark、Hive、Pig等地方找到很多相似之处，而本身的数据读写，序列化处理，分组、排序、聚合的实现，类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...

分类：其他好文时间：2014-08-03 18:02:06 阅读次数：267

java面试(2)--大数据相关

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文...

分类：编程语言时间：2014-08-03 17:33:25 阅读次数：345

谈谈运行稳定性好效率高的千万级大型网站系统架构性分析

千万级的注册用户，千万级的帖子，nTB级的附件，还有巨大的日访问量，大型网站采用什么系统架构保证性能和稳定性？首先讨论一下大型网站需要注意和考虑的问题。数据库海量数据处理：负载量不大的情况下select、delete和update是响应很迅速的，最多加几个索引就可以搞定，但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。另外在高UPDATE的情况下，更新一个...

分类：Web程序时间：2014-08-03 15:21:45 阅读次数：1007

【转】海量数据处理算法-Bloom Filter

1. Bloom-Filter算法简介Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在于集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom ...

分类：其他好文时间：2014-08-03 15:01:15 阅读次数：207

OC利用正则表达式获取网络资源（网络爬虫）

在开发项目的过程，很多情况下我们需要利用互联网上的一些数据，在这种情况下，我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步：1、获取网页的html2、利用正则表达式，获取我们所需要的数据3、分析，使用获取到的数据，（例如...

分类：其他好文时间：2014-08-03 12:40:45 阅读次数：194

共15133条上一页 1 ... 1478 1479 1480 1481 1482 ... 1514 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)