码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
关于HTTP返回码301、302区别与SEO
301(永久移动)请求的网页已永久移动到新位置。服务器返回此响应时,会自动将请求者转到新位置。您应使用此代码告诉搜索引擎Spider某个网页或网站已永久移动到新位置。建议在URL规范化的时候采用301跳转,例如google.com跳转到www.google.com,如下图所示。302(临时移动)服务...
分类:Web程序   时间:2015-03-17 17:43:43    阅读次数:171
25个站长必备的SEO优化工具
搜索引擎抓取内容模拟器可以模拟蜘蛛抓取指定网页,包括Text、Link、Keywords及Description信息等。http://www.webconfs.com/search-engine-spider-simulator.php页面相似度检测工具检验两个页面的相似度(如果相似度达80%以上,...
分类:其他好文   时间:2015-03-05 12:41:13    阅读次数:202
记录下学习Go语言时用到的一些项目
IDE:liteide? Web Framework:beego,Martini,macaron Orm:gorm,xorm 脚手架: goconfig,go-sql-driver 一些应用项目: cms:sudochina spider:go_spider blog:go_blog Go还是比较适合服务器开发,后台服...
分类:编程语言   时间:2015-03-04 22:54:15    阅读次数:222
Lucene.net站内搜索1——SEO优化简介
声明:在这里,所谈的一切关于SEO的技术主要针对于我们开发人员。 SEO (搜索引擎优化) SEO(搜索引擎优化)的目的(很多人都是通过搜索引擎找到我们的网站)是让搜索引擎更多的收录网站的页面,让被收录页面的权重更靠前,让更多的人能够通过搜索引擎进入这个网站 原理:蜘蛛会定时抓取网站的内容,发现网站内容变化、发现新增内容就反映到搜索引擎中 蜘蛛(spider) 爬网站:就是向网站发http...
分类:Web程序   时间:2015-03-04 22:45:11    阅读次数:206
IP地址爬取
ip_spider.py= = =#!/usr/bin/python# coding: utf-8import osimport sysimport requestsimport reimport urllibimport sysreload(sys)sys.setdefaultencoding( ...
分类:其他好文   时间:2015-02-28 15:57:27    阅读次数:104
中国A股分析系统---核心题材爬虫
先抓取一个页面的内容,以后再慢慢完善。#东方财富A股核心题材爬虫系统0.1#python版本:2.7#import urllib2import urllibimport re#建立爬虫的类HeXin_Spiderclass HeXin_Spider: def __init__(self): ...
分类:其他好文   时间:2015-02-28 14:30:56    阅读次数:205
POST抓取页面的问题
某同学反映,spider通过post方式抓取某站点有问题,老是302到自己,具体如下: url :http://www.meituan.com/multiact/default/deal/25814805.html post数据:"yui_3_16_0_1_1423700000_000:{\"act\":\"deal/dynamiccomponent\",\"args\":25814805...
分类:其他好文   时间:2015-02-27 21:33:49    阅读次数:257
Rails异常Could not connect to a primary node for replica set #<Moped::Cluster: @seeds=[<Moped::Node resolved_address=nil>]>
Rails连接远程mongo数据库报错:"Could not connect to a primary node for replica set #]>"配置文件内容如下:development: sessions: default: database: spider h...
分类:其他好文   时间:2015-02-09 09:18:25    阅读次数:189
Robots协议具体解释
禁止搜索引擎收录的方法(robots.txt)一、什么是robots.txt文件?搜索引擎通过一种程序robot(又称spider),自己主动訪问互联网上的网页并获取网页信息。您能够在您的站点中创建一个纯文本文件robots.txt,在这个文件里声明该站点中不想被robot訪问的部分,这样,该站点的...
分类:其他好文   时间:2015-02-07 18:39:00    阅读次数:132
python 爬虫第二个程序
#!/usr/bin/python #encoding=utf-8 import?urllib2???? import?urllib???? import?re???? import?thread???? import?time???? class?Spider(object): ???? ????def??__ini...
分类:编程语言   时间:2015-01-29 01:59:29    阅读次数:347
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!