搜索关键字：爬虫 scrapy，搜索到11768个结果！码迷,mamicode.com！

java网页爬虫简单实例详解——获取天气预报。

【本文介绍】爬取别人网页上的内容，听上似乎很有趣的样子，只要几步，就可以获取到力所不能及的东西，例如呢？例如天气预报，总不能自己拿着仪器去测吧！当然，要获取天气预报还是用webService好。这里只是举个例子。话不多说了，上看看效果吧。【效果】我们随便找个天气预报的网站来试试：http...

分类：编程语言时间：2014-08-06 17:54:02 阅读次数：440

简单的python爬虫爬的乌云漏洞类型

import urllib.requestimport restarturl="http://wooyun.org/searchbug.php?q=%E9%87%91%E8%9E%8D"def get_html_response(url): html_response = urllib.req...

分类：编程语言时间：2014-08-05 22:27:31 阅读次数：246

一个网站的诞生02--用Scrapy抓取数据

如果想抓数据，就需要有爬虫程序，业内叫crawler或者spider。有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助下写爬虫可以很快，几个小时就能写一个...

分类：Web程序时间：2014-08-04 17:37:47 阅读次数：285

Python实例 -- 爬虫

1 #coding="utf-8" 2 3 import urllib2 4 import re 5 import threading 6 import time 7 8 """ 9 抓取代理发布页的ip和port10 http://www.xici.net.co/nn/%d11 """12 ...

分类：编程语言时间：2014-08-04 02:00:36 阅读次数：313

scrapy采集列表页的另一种方式

又是采集绿色下载站的最新软件，又是采用另一种方式(前两种是采用正则和xpath)，呵呵感觉有点像孔乙已的茴字有几种写法了这回用CrawlSpider,Rule来配合采集这次不用生成许多start_urls列表项了，可以按规则来自动读取，贴核心代码#-*-coding:utf-8-*- fromscrapy.contrib.spide..

分类：其他好文时间：2014-08-03 23:34:57 阅读次数：500

python网络爬虫入门（二）——用python简单实现调用谷歌翻译

最近在看国外的文档，有些生词不认识。就用谷歌翻译来理解，用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客，发现几篇不错的，于是参考其他代码与自己的思路，简单的实现了下翻译的功能，代码如下： import re import urllib,urllib2 #----------模拟浏览器的行为，向谷...

分类：编程语言时间：2014-08-03 20:39:45 阅读次数：338

OC利用正则表达式获取网络资源（网络爬虫）

在开发项目的过程，很多情况下我们需要利用互联网上的一些数据，在这种情况下，我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步：1、获取网页的html2、利用正则表达式，获取我们所需要的数据3、分析，使用获取到的数据，（例如...

分类：其他好文时间：2014-08-03 12:40:45 阅读次数：194

Nutch源码阅读进程3---fetch

本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程，其中包括通过生产者-消费者的模型解决爬虫问题，nutch如何爬取页面以及对于不同的返回状态做相应的处理机制，其中还涉及到一些多线程的知识。

分类：其他好文时间：2014-08-02 17:55:13 阅读次数：290

Java 爬虫

import java.awt.BorderLayout;import java.awt.Cursor;import java.awt.Font;import java.awt.GridBagConstraints;import java.awt.GridBagLayout;import java....

分类：编程语言时间：2014-07-31 12:50:26 阅读次数：318

CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据

本文参考链接详细介绍如何使用Jsoup包抓取HTML数据，是一个纯java工程，并将其打包成jar包。希望了解如何用java语言爬虫网页的可以看下。杂家前文就又介绍用HTTP访问百度主页得到html的string字符串，但html的文本数据如果不经过处理就是个文本字符串没有任何效果的。所谓的浏览器就是负责将文本的html“翻译”成看到的界面。在前文有介绍，这个csdn的客户端app分首页、业界、...

分类：移动开发时间：2014-07-31 03:03:25 阅读次数：430

共11768条上一页 1 ... 1155 1156 1157 1158 1159 ... 1177 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)