搜索关键字：爬虫数据处理，搜索到15133个结果！码迷,mamicode.com！

C#中使用正则表达式提取超链接地址的集中方法

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!"); MatchCollection mc =...

分类：其他好文时间：2014-07-29 17:24:42 阅读次数：267

php网页爬虫

<?php/*网页爬虫*/#最简单的使用,属性都采用默认值/*$curl=curl_init(‘http://www.baidu.com‘);$output=curl_exec($curl);curl_close($curl);echo$output;*/#稍微复杂一点的，对页面进行操作/*$curl=curl_init();curl_setopt($curl,CURLOPT_URL,‘http://www.baidu.com‘);//..

分类：Web程序时间：2014-07-29 15:46:39 阅读次数：293

使用PHP创建基本的爬虫程序【转】

Web Crawler, 也时也称scrapers，即网络爬虫，用于自动搜索internet并从中提取想要的内容。互联网的发展离不开它们。爬虫是搜索引擎的核心，通过智能算法发现符合你输入的关键字的网页。Google网络爬虫会进入你的域名，然后扫描你网站的所有网页，从中析取网页标题，描述，关键字...

分类：Web程序时间：2014-07-29 10:25:48 阅读次数：369

UVA 120 Stacks of Flapjacks

每次从最底部开始处理，如果不是最大值，则把最大值翻到底部。这就是最优解。原理自己模拟一下就好。。。注意半径不是从1开始。数据处理要仔细。 1 #include 2 #include 3 #include 4 #include 5 using namespace std; 6 7 int m...

分类：其他好文时间：2014-07-28 13:43:50 阅读次数：225

js 中的正则表达式

一：正则表达式定义：记录文本规则的代码作用：表单验证，爬虫技术，可以对目标的内容进行替换。二：正则表达式的组成 1：普通字符组成正则浏览器的输出 2：定义字符集组成正则 3：特殊字符集组成正则 4：限制字符集组成正则 5：模式修正符

分类：Web程序时间：2014-07-28 11:31:10 阅读次数：205

开源新闻采集器（一）内容简介

1.最近闲来无事，想把自己最近一段时间工作的东西整理下。目标：新闻采集器 1.只需要输入列表网址，采集器将自动采集所有的文章。 2.采集器最后无需写任何采集规则。 3.基于静态爬虫的HTML分页获取策略（自己捉摸的，准确度不高） 4.基于开源项目的内容提取算法（Html2Arti...

分类：其他好文时间：2014-07-28 11:22:50 阅读次数：197

有关javascript中的JSON.parse和JSON.stringify的使用一二

有没有想过，当我们的大后台只是扮演一个数据库的角色，json在前后台的数据交换中扮演极其重要的角色时，作为依托node的前端开发，其实相当多的时间都是在处理数据，准确地说就是在处理逻辑和数据（这周实习最大的收获）。而对于依托json格式传输的数据，处理数据时，用到JSON.strinify和...

分类：编程语言时间：2014-07-27 22:41:39 阅读次数：275

用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）

WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。教程介绍了如何用WebCollector打造一个爬取《知乎》并进行问题精准抽取的爬虫（JAVA）...

分类：编程语言时间：2014-07-27 11:50:23 阅读次数：424

使用“关键字+时间段+区域”搜集新浪微博数据的方法

作为国内社交媒体的领航者，很遗憾，新浪微博没有提供以“关键字+时间+区域”方式获取的官方API。当我们看到国外科研成果都是基于某关键字获得的微博，心中不免凉了一大截，或者转战推特。再次建议微博能更开放些！庆幸的是，新浪提供了高级搜索功能。找不到？这个功能需要用户登录才能使用……没关系，下面将详细讲述如何在无须登录的情况下，获取“关键字+时间+区域”的新浪微博。首先...

分类：其他好文时间：2014-07-27 11:38:44 阅读次数：386

最新Python新浪微博爬虫2014-07

之前微博的登陆密码加密是三层sha1算法，现在更改为rsa2算法下面是python脚本，并把首页账号首页微博抓取下来。亲测可行。#! /usr/bin/env python# -*- coding: utf-8 -*-import sysimport urllib2import urllibimpo...

分类：编程语言时间：2014-07-26 14:13:17 阅读次数：267

共15133条上一页 1 ... 1480 1481 1482 1483 1484 ... 1514 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)