java 程序在 netbeans 中运行与单独运行的结果不一样...
分类:
编程语言 时间:
2014-07-30 14:53:23
阅读次数:
353
import webbrowser as web
import time
import os
i = 0
MAXNUM = 1
while i <= MAXNUM:
web.open_new_tab('要刷的网络地址')
os.system('taskkill /F /IM 浏览器文件名(chrome.exe)')
i += 1
else:...
分类:
编程语言 时间:
2014-07-29 22:08:12
阅读次数:
324
一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!"); MatchCollection mc =...
分类:
其他好文 时间:
2014-07-29 17:24:42
阅读次数:
267
<?php/*网页爬虫*/#最简单的使用,属性都采用默认值/*$curl=curl_init(‘http://www.baidu.com‘);$output=curl_exec($curl);curl_close($curl);echo$output;*/#稍微复杂一点的,对页面进行操作/*$curl=curl_init();curl_setopt($curl,CURLOPT_URL,‘http://www.baidu.com‘);//..
分类:
Web程序 时间:
2014-07-29 15:46:39
阅读次数:
293
Web Crawler, 也时也称scrapers,即网络爬虫,用于自动搜索internet并从中提取 想要的内容。互联网的发展离不开它们。爬虫是搜索引擎的核心,通过智能算法发现符合 你输入的关键字的网页。Google网络爬虫会进入你的域名,然后扫描你网站的所有网页,从中析取网页标题,描述, 关键字...
分类:
Web程序 时间:
2014-07-29 10:25:48
阅读次数:
369
原创文章,链接:
(I) connection.py
负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。
(II) dupefilter.py
负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...
分类:
其他好文 时间:
2014-07-28 16:10:23
阅读次数:
395
原创文章,链接:
在scrapy使用过程中,很多情况下需要根据实际需求定制自己的扩展,小到实现自己的pipelines,大到用新的scheduler替换默认的scheduler。
扩展可以按照是否需要读取crawler大致分为两种,对于不需要读取的,比如pipelines的编写,只需要实现默认的方法porcess_item。需要读取的,如scheduler的编写又存在另外的方式。...
分类:
其他好文 时间:
2014-07-28 16:08:23
阅读次数:
229
结构图
scrapy+webkit:
如结构图③。
scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.
关于scrapy+webkit的使用后期进行分析。
scrapy+django:
如结构图④。
django实现的配置界面主要是对抓取系统的管理和配置,...
分类:
数据库 时间:
2014-07-28 16:03:03
阅读次数:
673
一:正则表达式定义:记录文本规则的代码作用:表单验证,爬虫技术,可以对目标的内容进行替换。二:正则表达式的组成 1:普通字符组成正则浏览器的输出 2:定义字符集组成正则 3:特殊字符集组成正则 4:限制字符集组成正则 5:模式修正符
分类:
Web程序 时间:
2014-07-28 11:31:10
阅读次数:
205
1.最近闲来无事,想把自己最近一段时间工作的东西整理下。目标:新闻采集器 1.只需要输入列表网址,采集器将自动采集所有的文章。 2.采集器最后无需写任何采集规则。 3.基于静态爬虫的HTML分页获取 策略(自己捉摸的,准确度不高) 4.基于开源项目的内容提取算法(Html2Arti...
分类:
其他好文 时间:
2014-07-28 11:22:50
阅读次数:
197