码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 抓取数据    ( 2655个结果
个人平时比较常用的方便的小工具
开发文本编辑器可以用 sublime text ftp客户端可以用 filezilla 远程连接ssh等用  xmanager(推荐,内带xftp,比较方便)  sercureCRT也可以 写日志,记录平时网上看到的可以用evernote(在chrome和firefox中有剪藏的插件,非常方便) 抓取数据包用wireshark 抓取本地web访问可以用httpwatch 扫描端口那些还...
分类:其他好文   时间:2014-10-23 17:45:09    阅读次数:256
java抓取网页数据,登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序。主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中。也找了一些资料,觉得没有一个很好的,全面的例子。因此在这里做个笔记提醒自己。首先需要一个jsoup的jar包,我用的1.6.0。。下载地址为:http://pan.baidu.com/s/1...
分类:编程语言   时间:2014-10-20 19:01:04    阅读次数:255
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:编程语言   时间:2014-10-17 02:11:54    阅读次数:306
C# 自动登录网页,浏览页面【转载】
需求:客户的数据同时存在在另外一个不可控的系统中,需要和当前系统同步。思路:自动登录另外一个系统,然后抓取数据,同步到本系统中。技术点:模拟用户登录;保存登录状态;抓取数据/// /// visit the target url /// /// ...
分类:Windows程序   时间:2014-10-16 12:48:22    阅读次数:258
python爬虫
说起爬虫你一定想起:Scrapy,没用过这个东西,不过从Google,看起来很专业的,由于工作需要,偶尔也会从网上抓取一些数据,之前用的是beautifulsoup,我这个人其实也有点强迫症,一定要知道范围,优劣,那么问题来了?两个东西的范围是什么?以及那个更好?直接Google你可以得到答案原来是...
分类:编程语言   时间:2014-10-15 13:11:10    阅读次数:164
python下载在线阅读盗墓笔记小说的脚本
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本 需要 BeautifulSoup 和 requests 两个库 (我已经把注释写得尽量详细) 这个程序的执行速度很慢,求高手告诉我优化的方法!! #-*-coding:utf8-*- from...
分类:编程语言   时间:2014-10-14 15:47:19    阅读次数:227
python 批量下载美剧 from 人人影视 HR-HDTV
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫...
分类:编程语言   时间:2014-10-11 22:03:36    阅读次数:344
用python爬虫抓站的一些技巧总结
1.[代码]最基本的抓站 ?12import urllib2content = urllib2.urlopen('http://XXXX').read()2.[代码]使用代理服务器 ?12345import urllib2proxy_support = urllib2.ProxyHandler({'...
分类:编程语言   时间:2014-10-10 19:32:24    阅读次数:226
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!