码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django
结构图 scrapy+webkit: 如结构图③。 scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash. 关于scrapy+webkit的使用后期进行分析。 scrapy+django: 如结构图④。 django实现的配置界面主要是对抓取系统的管理和配置,...
分类:数据库   时间:2014-07-28 16:03:03    阅读次数:673
linux curl模拟登录网页
有时在批量抓取网站页面内容时,是需要处于登录状态的,否则无法获取。curl这个强大的工具可以完成这个工作。之前最好也先了解一下http POST方法,网站登录大都是用这个办法。 本文基本上参考[这篇文章](http://...
分类:Web程序   时间:2014-07-28 00:50:49    阅读次数:506
Nutch源码阅读进程2---Generate
本文主要讲解了自己阅读nutch中Generate整个运行过程,Generate主要分为以下几个部分:以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中;再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments;最后更新crawldb,...
分类:其他好文   时间:2014-07-27 23:17:09    阅读次数:338
用C#抓取AJAX页面的内容
现在的网页有相当一部分是采用了AJAX技术,不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执行的! 但我们用IE浏览页面时是正常的,所以解决方法只有1个就是采用WebBrowser控件 但是使用Webbrowser你会发现,在.....
分类:其他好文   时间:2014-07-27 22:43:10    阅读次数:188
PHP中有关正则表达式的函数集锦
之前学正则表达式的目的是想从网上抓取点小说啊,文档啊,还有获取相应的视频连接然后批量下载。当时初学PHP根本不知道PHP有专门抓包的工具,就像Simple_html_dom.php(在我的其他博文中有提到),之前根本就不知道有这东西,所以就自己废着劲去学习正则表达式,然后再学习PHP中正则表达式.....
分类:Web程序   时间:2014-07-27 10:06:32    阅读次数:219
最新Python新浪微博爬虫2014-07
之前微博的登陆密码加密是三层sha1算法,现在更改为rsa2算法下面是python脚本,并把首页账号首页微博抓取下来。亲测可行。#! /usr/bin/env python# -*- coding: utf-8 -*-import sysimport urllib2import urllibimpo...
分类:编程语言   时间:2014-07-26 14:13:17    阅读次数:267
python 爬虫抓取心得分享
/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/??? 0x1.urllib.quote(‘要编码的字符串‘) 如果你要在url请求里面放入中文...
分类:编程语言   时间:2014-07-26 03:36:37    阅读次数:334
HtmlAgilityPack --解析Html源码
最近项目需要从网络上抓取一下数据解析Html源码,奈何正则表达式难写,于是网上搜索找到了“HtmlAgilityPack”类库,敏捷开发,果然效率非同寻常。在此做笔记,写下心得,顺便给自己总结一下。1、HtmlAgilityPack使用的是XPath进行路径搜索,如果对XML路径搜索很熟悉,用起来会...
分类:Web程序   时间:2014-07-26 01:24:16    阅读次数:246
大数据导致DataReader.Close超时的异常
公司一个数据抓取的程序,数据量极大,读取数据的用IDataReader的Read方法来进行数据处理,在测试的时候我想跑一部分数据后跳出循环,即break; 然后关闭datareader,但是在执行datareader.close()方法的时候出现了“超时异常”的错误, 查看了一下MSDN对Close...
分类:其他好文   时间:2014-07-26 00:17:36    阅读次数:232
html+css学习笔记 2[标签]
img标签/a标签 图片(单标签)alt属性 是图片名字,是给百度搜索引擎抓取使用; a标签: 链接/下载/锚点 href地址等于标签id target 链接打开方式 blank 新窗口 self 当前窗口 定义页面链接默认打开方式 常见标签 ...
分类:Web程序   时间:2014-07-26 00:10:56    阅读次数:355
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!