码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
11款网站死链检测工具
网站中出现断链或死链,会导致部分资源无法访问,出现404报错,影响SEO。我们可以通过下面的11款链接检测工具(包括在线检测工具)帮助我们检查网站失效链接的情况。1.Link Checkers在线工具。可以抓取网站内容来检查网页死链,准确定位有问题的超链位置。\2.Google Webmaster ...
分类:Web程序   时间:2014-07-03 11:37:27    阅读次数:1480
根据网站所做的SEO优化整理的一份文档
今日给合作公司讲解本公司网站SEO优化整理的一份简单文档架构 ##########################################1、尽量避免Javascript和flash导航。 虽然JS和FLASH能把网站做的绚丽漂亮,但目前搜索引擎还是无法顺利的抓取其中的内容,所以我们要避免。...
分类:Web程序   时间:2014-07-03 09:41:54    阅读次数:202
[20140702]奇怪的应用程序超时
背景: 应用程序,在某个时刻或出现超时,一开始以为是dbcc checktable造成,使用了各种手段抓取sql,xevent,profile都没有找到。 之前还写了一篇,[20140117]疑似checkpoint堵塞数据库连接,其实问题不是这个。问题: 出现超时一般是在索引整理的job运行...
分类:其他好文   时间:2014-07-02 10:29:30    阅读次数:150
java的一个爬虫
进行抓取页面,我看了一下人家的教程,一般要用到htmlparser用来解析html得到一个网页的相关链接,用httpclient抓取网页数据,下面是一我写的spider类package com.openzone.search.spider;import java.io.BufferedReader;...
分类:编程语言   时间:2014-07-01 21:43:29    阅读次数:261
云适配将推出中国首个开源 HTML5 跨屏前端框架 - Amaze UI
云适配,这是一家能以一行代码将你的网站移动化,实现网址不变且内容实时自动同步的服务提供商。云适配所采用的技术是一项基于云计算、利用html5进行网站跨屏适配,它为目标网站开发一行JS代码,并嵌入PC网站,这个JS代码通过对PC网站目标网页数据的分析和抓取,在云端完成用户当前设备的网页最佳展现方式的计...
分类:Web程序   时间:2014-07-01 21:07:52    阅读次数:266
正则抓取网页所有href和src
根据抓取的页面,用正则来匹配页面href和srcstring UserAgent = "Mozilla/5.0 (Windows NT 5.2; rv:29.0) Gecko/20100101 Firefox/29.0"; string ContentType = ""; Uri str...
分类:Web程序   时间:2014-07-01 19:03:39    阅读次数:276
[terry笔记]ogg_迁移同步实验_零停机
oracle golden gate我最近正在琢磨,这个软件我觉得约等于dataguard的逻辑模式,我认为其最大的优势是更可控制,比如可以细化到某个schema、某个table的同步。如下实验的主要步骤:ogg根据scn同步数据,源库零停机时间1. 配置好ogg源端的mgr、抓取和传送进程,并启动...
分类:其他好文   时间:2014-07-01 12:37:00    阅读次数:499
PHP正则表达式匹配嵌套HTML标签的方法和技巧
正则表达式是一个非常有用的编程技能。一般来说,简单的抓取一个HTML页面的某一条信息,比如标题,是很容易实现的。但是,我们往往要抓取某一个列表页面里的多个重复的块里的特定内容,并且块还有嵌套的使用,我们抓取的则是每个重复块里的多个信息。同时,网页源文件不同于一般的字符串,其还存在大量的回车、换行和制表符,这些都造成了匹配失败。而初学者往往无法判断到底是哪个环节出现了问题,并且看到高度技巧化的正则表达式会感到非常沮...
分类:Web程序   时间:2014-06-30 08:51:04    阅读次数:233
搜索引擎优化要领:8条辅助技巧(一)
以下是8条可能是你很容易忽略的 一、寻找可访问性问题 谷歌网站管理员工具是搜索你网站发出的无障碍的最佳工具,这个免费软件可以帮助你明白你的网站是怎么回事。   谷歌分析,网站管理员工具更专注于你网站的技术部分。   谷歌发现,什么被称为“蜘蛛”,抓取你的网站你的网站内容。这个机器人绕着从链接的链接,编目和/或索引有什么发现。当蜘蛛试图看一个页面,你的服务器将响应返回的HTTP状态代...
分类:其他好文   时间:2014-06-30 00:14:41    阅读次数:295
python多线程实现抓取网页
Python实现抓取网页 下面的Python抓取网页的程序比较初级,只能抓取第一页的url所属的页面,只要预定URL足够多,保证你抓取的网页是无限级别的哈,下面是代码: ##coding:utf-8 ''' 无限抓取网页 @author wangbingyu @date 2014-06-26 ''' import sys,urllib,re,thread,time,thr...
分类:编程语言   时间:2014-06-29 22:15:45    阅读次数:395
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!