301(永久移动)请求的网页已永久移动到新位置。服务器返回此响应时,会自动将请求者转到新位置。您应使用此代码告诉搜索引擎Spider某个网页或网站已永久移动到新位置。建议在URL规范化的时候采用301跳转,例如google.com跳转到www.google.com,如下图所示。302(临时移动)服务...
分类:
Web程序 时间:
2015-03-17 17:43:43
阅读次数:
171
搜索引擎抓取内容模拟器可以模拟蜘蛛抓取指定网页,包括Text、Link、Keywords及Description信息等。http://www.webconfs.com/search-engine-spider-simulator.php页面相似度检测工具检验两个页面的相似度(如果相似度达80%以上,...
分类:
其他好文 时间:
2015-03-05 12:41:13
阅读次数:
202
IDE:liteide? Web Framework:beego,Martini,macaron Orm:gorm,xorm 脚手架: goconfig,go-sql-driver 一些应用项目: cms:sudochina spider:go_spider blog:go_blog Go还是比较适合服务器开发,后台服...
分类:
编程语言 时间:
2015-03-04 22:54:15
阅读次数:
222
声明:在这里,所谈的一切关于SEO的技术主要针对于我们开发人员。
SEO (搜索引擎优化)
SEO(搜索引擎优化)的目的(很多人都是通过搜索引擎找到我们的网站)是让搜索引擎更多的收录网站的页面,让被收录页面的权重更靠前,让更多的人能够通过搜索引擎进入这个网站
原理:蜘蛛会定时抓取网站的内容,发现网站内容变化、发现新增内容就反映到搜索引擎中
蜘蛛(spider) 爬网站:就是向网站发http...
分类:
Web程序 时间:
2015-03-04 22:45:11
阅读次数:
206
ip_spider.py= = =#!/usr/bin/python# coding: utf-8import osimport sysimport requestsimport reimport urllibimport sysreload(sys)sys.setdefaultencoding( ...
分类:
其他好文 时间:
2015-02-28 15:57:27
阅读次数:
104
先抓取一个页面的内容,以后再慢慢完善。#东方财富A股核心题材爬虫系统0.1#python版本:2.7#import urllib2import urllibimport re#建立爬虫的类HeXin_Spiderclass HeXin_Spider: def __init__(self): ...
分类:
其他好文 时间:
2015-02-28 14:30:56
阅读次数:
205
某同学反映,spider通过post方式抓取某站点有问题,老是302到自己,具体如下:
url :http://www.meituan.com/multiact/default/deal/25814805.html
post数据:"yui_3_16_0_1_1423700000_000:{\"act\":\"deal/dynamiccomponent\",\"args\":25814805...
分类:
其他好文 时间:
2015-02-27 21:33:49
阅读次数:
257
Rails连接远程mongo数据库报错:"Could not connect to a primary node for replica set #]>"配置文件内容如下:development: sessions: default: database: spider h...
分类:
其他好文 时间:
2015-02-09 09:18:25
阅读次数:
189
禁止搜索引擎收录的方法(robots.txt)一、什么是robots.txt文件?搜索引擎通过一种程序robot(又称spider),自己主动訪问互联网上的网页并获取网页信息。您能够在您的站点中创建一个纯文本文件robots.txt,在这个文件里声明该站点中不想被robot訪问的部分,这样,该站点的...
分类:
其他好文 时间:
2015-02-07 18:39:00
阅读次数:
132
#!/usr/bin/python
#encoding=utf-8
import?urllib2????
import?urllib????
import?re????
import?thread????
import?time????
class?Spider(object):
????
????def??__ini...
分类:
编程语言 时间:
2015-01-29 01:59:29
阅读次数:
347