码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
webmagic爬虫程序
package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;impor...
分类:Web程序   时间:2014-07-05 18:52:01    阅读次数:266
垂直搜索的相关知识点总结
垂直搜索引擎大体上需要以下技术 1.Spider 2.网页结构化信息抽取技术或元数据采集技术 3.分词、索引 4.其他信息处理技术 垂直搜索引擎的技术评估应从以下几点来判断 1.全面性 2.更新性 3.准确性 4.功能性 垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:其他好文   时间:2014-07-04 08:45:56    阅读次数:295
java的一个爬虫
进行抓取页面,我看了一下人家的教程,一般要用到htmlparser用来解析html得到一个网页的相关链接,用httpclient抓取网页数据,下面是一我写的spider类package com.openzone.search.spider;import java.io.BufferedReader;...
分类:编程语言   时间:2014-07-01 21:43:29    阅读次数:261
Swift下标
还记得字典吗?[html]view plaincopyvarnumberOfLegs=["spider":8,"ant":6,"cat":4]numberOfLegs["bird"]=2["bird"]就是下标 下标可以在类和结构体中定义。定义下标[html]view plaincopysubscr...
分类:其他好文   时间:2014-06-30 21:59:22    阅读次数:271
scrapy递归抓取网页数据
scrapy spider的parse方法可以返回两种值:BaseItem,或者Request。通过Request可以实现递归搜索。 如果要抓取的数据在当前页,可以直接解析返回item(代码中带**注释的行直接改为yield item); 如果要抓取的数据在当前页指向的页面,则返回Request并指定parse_item作为callback; 如果要抓取的数据当前页有一部分,指向的页面有一部分(比如博客或论坛,当前页有标题、摘要和url,详情页面有完整内容)这种情况需要用Request的meta参数把...
分类:Web程序   时间:2014-06-27 09:46:13    阅读次数:333
Scrapy精华教程(六)——自动爬取网页之II(CrawlSpider)
一.目的。 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存。 但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎...
分类:Web程序   时间:2014-06-27 09:37:22    阅读次数:15554
Codeforces 216D Spider's Web 树状数组+模拟
题目链接:http://codeforces.com/problemset/problem/216/D 题意: 对于一个梯形区域,如果梯形左边的点数!=梯形右边的点数,那么这个梯形为红色,否则为绿色, 问: 给定的蜘蛛网中有多少个红色。 2个树状数组维护2个线段。然后暴力模拟一下,因为点数很多但需要用到的线段树只有3条,所以类似滚动数组的思想优化内存。 #include #includ...
分类:Web程序   时间:2014-06-22 07:11:35    阅读次数:205
定向数据爬虫和搜索引擎(Directional Spider)设计文档
定向数据网络爬虫和搜索引擎项目设计(新闻数据抓取、分析、加工、检索)版本号: v 1.0.0 编写人: 张 文 豪 日 期: 2014年6月10日文档说明:这个文档还在编写之中,文章中很多写在“保留”二字的不是每月东西,而是没有写。虽然没有具体实现,但是我觉得我把我的经验和思考都写进去了。虽然对于读...
分类:其他好文   时间:2014-06-15 08:25:48    阅读次数:399
linux服务之hi-spiler
海蜘蛛http://docs.hi-spider.com/user_guide.V8/index.html单击海蜘蛛路由左上方logo图标即可进入海蜘蛛路由首页界面。在线用户数是指用户在线半小时以上的主机数,活动用户指经过路由上网有流量的主机数,PPP用户指以PPPoE拨号方式连接到路由的主机数。当...
分类:系统相关   时间:2014-06-13 20:18:24    阅读次数:330
MySQL及其分支或衍生版
MariaDBMariaDB 是一个采用 Maria 存储引擎的 MySQL 分支版本,是由原来 MySQL 的作者 Michael Widenius 创办的公司所开发的免费开源的数据库服务器。Spider in MariaDBKentoku ShibaSlides: Spider_in_Maria...
分类:数据库   时间:2014-06-05 16:10:14    阅读次数:412
1087条   上一页 1 ... 106 107 108 109 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!