搜索关键字：guozhongcrawler 爬虫，搜索到10454个结果！码迷,mamicode.com！

OC利用正则表达式获取网络资源（网络爬虫）

在开发项目的过程，很多情况下我们需要利用互联网上的一些数据，在这种情况下，我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步：1、获取网页的html2、利用正则表达式，获取我们所需要的数据3、分析，使用获取到的数据，（例如...

分类：其他好文时间：2014-08-03 12:40:45 阅读次数：194

Nutch源码阅读进程3---fetch

本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程，其中包括通过生产者-消费者的模型解决爬虫问题，nutch如何爬取页面以及对于不同的返回状态做相应的处理机制，其中还涉及到一些多线程的知识。

分类：其他好文时间：2014-08-02 17:55:13 阅读次数：290

Java 爬虫

import java.awt.BorderLayout;import java.awt.Cursor;import java.awt.Font;import java.awt.GridBagConstraints;import java.awt.GridBagLayout;import java....

分类：编程语言时间：2014-07-31 12:50:26 阅读次数：318

CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据

本文参考链接详细介绍如何使用Jsoup包抓取HTML数据，是一个纯java工程，并将其打包成jar包。希望了解如何用java语言爬虫网页的可以看下。杂家前文就又介绍用HTTP访问百度主页得到html的string字符串，但html的文本数据如果不经过处理就是个文本字符串没有任何效果的。所谓的浏览器就是负责将文本的html“翻译”成看到的界面。在前文有介绍，这个csdn的客户端app分首页、业界、...

分类：移动开发时间：2014-07-31 03:03:25 阅读次数：430

java 爬虫在 netbeans 里运行和单独运行结果不一样

java 程序在 netbeans 中运行与单独运行的结果不一样...

分类：编程语言时间：2014-07-30 14:53:23 阅读次数：353

Windows 环境下运用Python制作网络爬虫

import webbrowser as web import time import os i = 0 MAXNUM = 1 while i <= MAXNUM: web.open_new_tab('要刷的网络地址') os.system('taskkill /F /IM 浏览器文件名(chrome.exe)') i += 1 else:...

分类：编程语言时间：2014-07-29 22:08:12 阅读次数：324

C#中使用正则表达式提取超链接地址的集中方法

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!"); MatchCollection mc =...

分类：其他好文时间：2014-07-29 17:24:42 阅读次数：267

php网页爬虫

<?php/*网页爬虫*/#最简单的使用,属性都采用默认值/*$curl=curl_init(‘http://www.baidu.com‘);$output=curl_exec($curl);curl_close($curl);echo$output;*/#稍微复杂一点的，对页面进行操作/*$curl=curl_init();curl_setopt($curl,CURLOPT_URL,‘http://www.baidu.com‘);//..

分类：Web程序时间：2014-07-29 15:46:39 阅读次数：293

使用PHP创建基本的爬虫程序【转】

Web Crawler, 也时也称scrapers，即网络爬虫，用于自动搜索internet并从中提取想要的内容。互联网的发展离不开它们。爬虫是搜索引擎的核心，通过智能算法发现符合你输入的关键字的网页。Google网络爬虫会进入你的域名，然后扫描你网站的所有网页，从中析取网页标题，描述，关键字...

分类：Web程序时间：2014-07-29 10:25:48 阅读次数：369

js 中的正则表达式

一：正则表达式定义：记录文本规则的代码作用：表单验证，爬虫技术，可以对目标的内容进行替换。二：正则表达式的组成 1：普通字符组成正则浏览器的输出 2：定义字符集组成正则 3：特殊字符集组成正则 4：限制字符集组成正则 5：模式修正符

分类：Web程序时间：2014-07-28 11:31:10 阅读次数：205

共10454条上一页 1 ... 1026 1027 1028 1029 1030 ... 1046 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)