在使用Python对一些网站的数据进行采集时,经常会遇到需要登录的情况。这些情况下,使用FireFox等浏览器登录时,自带的调试器(快捷键F12)就可以看到登录的时候网页向服务器提交的信息,把这部分信息提取出来就可以利用Python的urllib2库结合Cookie进行模拟登录然后采集数据,..
分类:
编程语言 时间:
2015-03-12 01:06:48
阅读次数:
4418
1.基本代码在gemfile中加入gem "hpricot",bundler install之后,在application。rb中require "hpricot"require "open-uri". 1 pp "===========begin=============" 2 url = "ht...
分类:
其他好文 时间:
2015-03-11 17:01:38
阅读次数:
160
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱发表于2014年07月24号由52nlp曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,...
分类:
编程语言 时间:
2015-03-11 16:59:02
阅读次数:
314
基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战)课程分类:Hadoop适合人群:高级课时数量:81课时用到技术:基于协同过滤的推荐系统、基于HBase的爬虫调度库涉及项目:银行人民币查询系统、HBase编程实践及案例分析...
分类:
其他好文 时间:
2015-03-11 16:34:36
阅读次数:
138
Scrapy 是什么?
Scrapy 是一个开源的基于Twisted的python爬虫框架,我们只要定制几个简单的模块就能实现网络数据的爬取。
Scrapy 的整体架构
简单的解释一下上面的图:
爬虫处理的原材料是一个或多个url,爬取时Sheduler会把一个url分配给Downloader来进行一次网络的request请求,请求完成后Downloader再把所得到的res...
分类:
移动开发 时间:
2015-03-10 19:28:45
阅读次数:
259
基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\MapReduce\数据挖掘\项目实战)课程分类:Hadoop适合人群:高级课时数量:81课时用到技术:基于协同过滤的推荐系统、基于HBase的爬虫调度库涉及项目:银行人民币查询系统、HBase编程实践及案例分析...
分类:
其他好文 时间:
2015-03-10 15:19:43
阅读次数:
155
Flask:Python系的轻量级Web框架。1. 网页爬虫工具集Scrapy 推荐大牛pluskid早年的一篇文章:《Scrapy 轻松定制网络爬虫》Beautiful Soup客观的说,Beautifu Soup不完全是一套爬虫工具,需要配合urllib使用,而是一套HTML/XML数据分析,清...
分类:
编程语言 时间:
2015-03-10 15:16:03
阅读次数:
256
一直在处理爬虫,经常能遇到读写文件的操作,很多时候都是读写超大文件,记录如下:一、读文件 import java.io.BufferedOutputStream; import java.io.BufferedReader; import java.io.File; imp...
分类:
编程语言 时间:
2015-03-09 23:52:11
阅读次数:
256
一、配置mvn依赖<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.1.2</version></dependency>二、代码1、获取网页内容packagecom.chenanyi.fuli.Helper;
importjava..
分类:
其他好文 时间:
2015-03-09 19:28:55
阅读次数:
241