码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
通过rcurl抓取网页数据
获取数据有多种方式,例如从txt、excel、curl、数据库等,我比较喜欢curl和数据库,先介绍下rcurl一 下载rcurl包http://cran.r-project.org/web/packages/RCurl/index.html二 安装sudo R CMD INSTALL RCurl_...
分类:Web程序   时间:2014-05-16 18:57:57    阅读次数:438
Google去抓取同一文件的流量就超过了700Mbps。DDOS爬虫攻击
只需要使用一台笔记本,打开几个web标签页,仅仅拷贝一些指向10MB文件的链接,Google去抓取同一文件的流量就超过了700Mbps。Google的FeedFetcher爬虫会将spreadsheet的=image(“link”)中的任意链接缓存。如果我们将=image(“http://examp...
分类:其他好文   时间:2014-05-16 06:43:25    阅读次数:461
Python抓取需要cookie的网页
Python抓取需要cookie的网页在仿照《Python小练习:可视化人人好友关系》一文时,需要登录模拟登录人人网。然而自从CSDN事件之后,人人网开始使用加密方式处理登录名和密码,直接使用post方式已经无法登陆人人网。这时,从豆瓣讨论中找到了解决方法: 1. 首先使用浏览器登陆人人,然后找到浏...
分类:编程语言   时间:2014-05-14 09:50:51    阅读次数:368
通过rcurl抓取网页数据
获取数据有多种方式,例如从txt、excel、curl、数据库等,我比较喜欢curl和数据库,先介绍下rcurl一 下载rcurl包http://cran.r-project.org/web/packages/RCurl/index.html二 安装sudo R CMD INSTALL RCurl_...
分类:Web程序   时间:2014-05-14 08:20:31    阅读次数:392
百度蜘蛛的更新策略
百度蜘蛛的更新策略:我们知道蜘蛛并不是只抓取我们网站一次,而是按一定的更新频率来抓取我们的网站,在本地进行一个“镜像”从而保证被抓取的网页参与排名时呈现给用户的是最新的(咳咳,不新也要保证差不多嘛!毕竟资源有限)。那么这个更新策略跟什么有关呢?   1.用户体验:用户一般在搜索一个关键词的时候,顶多看两三页左右,基本很少看后面的页面,而搜索引擎本着优先更新大部分客户所需要内容的原则,所以搜索引擎...
分类:其他好文   时间:2014-05-13 08:18:25    阅读次数:286
Apache 整合 Acitve Directory 達成 one single signon
原文地址:http://blog.hsdn.net/1266.html我的公司使用AD進行使用者驗證,因此在使用者操作的便利性考量前提下.如何讓使用者不需要重覆輸入帳號與密碼,而直接抓取使用者已經登入AD的帳號資訊,已經變成系統開發必須要考量的項目之一 (至少我自己是這樣認為啦 @@).NET整合A...
分类:其他好文   时间:2014-05-12 21:38:46    阅读次数:463
MongoDB 常用故障排查工具
1.profileprofiling levels: 0,关闭profile;1,只抓取slow查询;2,抓取所有数据。启动profile并且设置Profile级别:可以通过mongo shell启动,也可以通过驱动中的profile命令启动,启动后记录会被保存在system.profile col...
分类:数据库   时间:2014-05-12 02:09:33    阅读次数:431
bsh for android : HTML parser
本来想用 import org.jsoup.Jsoup; 或者 import org.htmlparser.Parser; 可是 android 不支持 sun.com 原生java字节码执行 ,而是自成一家. 只能靠自己写了 ,例如: beanshell 抓取CSDN极客头条内容 TestHtmlParser.bsh import java.net.*; import java.io....
分类:移动开发   时间:2014-05-11 13:48:02    阅读次数:344
MemoryMappingFile泄漏分析过程
最近项目突然收到了一个紧急的问题报告 - 用户在进行某些关键操作的时候整个软件突然就crash掉了。幸好产品继承了自动抓取dump的功能。。。
分类:移动开发   时间:2014-05-10 07:50:59    阅读次数:478
c#抓取网页验证码
c#抓取网页验证码...
分类:Web程序   时间:2014-05-09 15:23:44    阅读次数:368
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!