如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。
有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。
爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:
Web程序 时间:
2014-08-04 17:37:47
阅读次数:
285
今天看到一个关于commonJs和nodeJs的简介~前言:早就听说有用于本地编程的JavaScript框架,但总觉得是小打小闹不成气候,也没有什么实用价值。但自从CommonJS和NodeJS两个项目的出现,JavaScript作为本地编程语言的这种特殊应用形式,才开始进入进入大众的视野。 本文翻...
分类:
Web程序 时间:
2014-08-04 17:19:57
阅读次数:
341
准备工作 NodeJS(NPM) Grunt & Bower: npm install -g grunt-cli bower(if fail, use sudo) npm install -g generator-angular yo angular npm install bower install execute grunt tasks like: grunt serve...
分类:
其他好文 时间:
2014-08-04 14:47:27
阅读次数:
279
JavaScript入门教程:http://www.w3school.com.cn/js/深入学习推荐阅读MozillaJavaScript:https://developer.mozilla.org/en-US/docs/Web/JavaScript/GuideNode是一个可以让JavaScript运行在服务器端或者说运行在浏览器之外的平台。Node.js中所谓的JavaScript只是CoreJavaScrip..
分类:
Web程序 时间:
2014-08-04 14:41:38
阅读次数:
353
1 #coding="utf-8" 2 3 import urllib2 4 import re 5 import threading 6 import time 7 8 """ 9 抓取代理发布页的ip和port10 http://www.xici.net.co/nn/%d11 """12 ...
分类:
编程语言 时间:
2014-08-04 02:00:36
阅读次数:
313
淘宝IP地址库的优势:
1. 提供国家、省、市、县、运营商全方位信息,信息维度广,格式规范。
2. 提供完善的统计分析报表,省准确度超过99.8%,市准确度超过96.8%,数据质量有保障。...
分类:
其他好文 时间:
2014-08-03 23:23:36
阅读次数:
439
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:
import re
import urllib,urllib2
#----------模拟浏览器的行为,向谷...
分类:
编程语言 时间:
2014-08-03 20:39:45
阅读次数:
338
在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步:1、获取网页的html2、利用正则表达式,获取我们所需要的数据3、分析,使用获取到的数据,(例如...
分类:
其他好文 时间:
2014-08-03 12:40:45
阅读次数:
194
Node提供丰富的网络编程模块包括net、dgram、http和https,分别对应TCP、UDP、HTTP和HTTPS协议。...
分类:
Web程序 时间:
2014-08-02 23:31:34
阅读次数:
270
1、node.js去官网下载,下载完,像平时安装软件一样2、把下面的测试文件,放到安装目录下,本文是放到:D:\Program Files\nodejs下var http = require("http"); http.createServer(function(request, response)...