码迷,mamicode.com
首页 >  
搜索关键字:爬虫 scrapy    ( 11768个结果
快速、直接的XSS漏洞检测爬虫 – XSScrapy
XSScrapy是一个快速、直接的XSS漏洞检测爬虫,你只需要一个URL,它便可以帮助你发现XSS跨站脚本漏洞。XSScrapy的XSS漏洞攻击测试向量将会覆盖Http头中的Referer字段User-Agent字段Cookie表单(包括隐藏表单)URL参数RUL末尾,如www.example.co...
分类:其他好文   时间:2014-09-17 11:45:42    阅读次数:204
python 小爬虫的各种总结(一)
python真是一门非常优秀的语言,非常适合初学者,也非常适合写一些原型程序。这篇文章总结了下以前做的各种和网络相关的东西:自动登录、提取信息、模拟点击、模拟上传、取号等等,多亏了python才使世界变得那么美好! 本次我们主要是模拟浏览器下载网页,学会了下载网页其他的下载图片什么的都是一样的套路。...
分类:编程语言   时间:2014-09-16 21:48:21    阅读次数:310
【淘宝数据干货】我用数据告诉你互联网安全套行业是什么样的?【不看后悔!!!】
最近互联网思维这个词很火,各种产品被包装成了高大上,然后一群神棍把小白们忽悠的昏天黑地。到处都是小米,黄太吉,马佳佳,雕爷牛腩的成功案例。但是今天,我的文章与互联网思维没有半毛线关系,前面也都是废话。我用最真实最新鲜热乎的数据来告诉你,真正的互联网安全套行业是什么样的。 ======华丽的分割线=========== 数据来源:通过爬虫技术对主流的套套平台的公开页面进行大量的数据抓取。 数据...
分类:其他好文   时间:2014-09-16 10:51:35    阅读次数:445
fatal error: 'libxml/xmlversion.h' file not found
问题:MACOS安装scrapy时,安装lxml出现错误In file included from src/lxml/lxml.etree.c:232:/tmp/easy_install-O2UfP7/lxml-3.4.0/src/lxml/includes/etree_defs.h:14:10: ...
分类:其他好文   时间:2014-09-15 22:30:19    阅读次数:407
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格。搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫。先分析商品页面,在http://www.muyin...
分类:Web程序   时间:2014-09-14 18:00:07    阅读次数:195
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un...
分类:编程语言   时间:2014-09-14 12:51:17    阅读次数:427
SHELL网络爬虫实例剖析
前天简单分享了用shell写网络爬虫的一些见解,今天特地把代码发出来与51博友分享,还是那句话,爱技术、爱开源、爱linux。针对脚本的注解和整体构思,我会放到脚本之后为大家详解。#!/bin/bash # #Thisscriptisusedtograbthedataonthespecifiedindustrywebsites #Writtenbysuns..
分类:其他好文   时间:2014-09-14 11:27:27    阅读次数:295
python 网络爬虫,python 网络爬虫
#-*-coding:utf-8-*-#python:2.x__author__='Administrator'importurllib2#例子LOGIN='wesc'PASSWD="you'llNeverGuess"URL='http://localhost'defh1(url):fromurlp...
分类:编程语言   时间:2014-09-13 17:10:35    阅读次数:247
grep命令和curl命令的使用方法
今天看了汪海写的python爬虫教程,说实话看不懂。。。于是就用bash下的工具自己开始写了一个抓取糗事百科的糗事的脚本,期间搜索到了grep和curl命令的一些使用技巧。grep命令,使用grep命令来进行文本的通配,一般只是显示匹配的行,但是使用以下几个参数就可以显示上下文了:-C [num] ...
分类:其他好文   时间:2014-09-12 23:19:24    阅读次数:665
python 根据文件创建时间排序
#coding:utf8import os,timedirectory = "d:/scrapy tutorial/"t = []d = {}for filename in os.listdir(directory): path = directory + filename ...
分类:编程语言   时间:2014-09-12 22:02:04    阅读次数:313
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!