搜索关键字：spider，搜索到1087个结果！码迷,mamicode.com！

webmagic爬虫程序

package com.letv.cloud.spider;import java.util.HashSet;import java.util.List;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;impor...

分类：Web程序时间：2014-07-05 18:52:01 阅读次数：266

垂直搜索的相关知识点总结

垂直搜索引擎大体上需要以下技术 1．Spider 2．网页结构化信息抽取技术或元数据采集技术 3．分词、索引 4．其他信息处理技术垂直搜索引擎的技术评估应从以下几点来判断 1．全面性 2．更新性 3．准确性 4．功能性垂直搜索的进入门槛很低，但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...

分类：其他好文时间：2014-07-04 08:45:56 阅读次数：295

java的一个爬虫

进行抓取页面，我看了一下人家的教程，一般要用到htmlparser用来解析html得到一个网页的相关链接，用httpclient抓取网页数据，下面是一我写的spider类package com.openzone.search.spider;import java.io.BufferedReader;...

分类：编程语言时间：2014-07-01 21:43:29 阅读次数：261

Swift下标

还记得字典吗？[html]view plaincopyvarnumberOfLegs=["spider":8,"ant":6,"cat":4]numberOfLegs["bird"]=2["bird"]就是下标下标可以在类和结构体中定义。定义下标[html]view plaincopysubscr...

分类：其他好文时间：2014-06-30 21:59:22 阅读次数：271

scrapy递归抓取网页数据

scrapy spider的parse方法可以返回两种值：BaseItem，或者Request。通过Request可以实现递归搜索。如果要抓取的数据在当前页，可以直接解析返回item（代码中带**注释的行直接改为yield item）；如果要抓取的数据在当前页指向的页面，则返回Request并指定parse_item作为callback；如果要抓取的数据当前页有一部分，指向的页面有一部分（比如博客或论坛，当前页有标题、摘要和url，详情页面有完整内容）这种情况需要用Request的meta参数把...

分类：Web程序时间：2014-06-27 09:46:13 阅读次数：333

Scrapy精华教程（六）——自动爬取网页之II（CrawlSpider）

一.目的。在教程（二）（http://blog.csdn.net/u012150179/article/details/32911511）中使用基于Spider实现了自己的w3cschool_spider，并在items.py中定义了数据结构，在pipelines.py中实现获得数据的过滤以及保存。但是以上述方法只能爬取start_url列表中的网页，而网络爬虫如google等搜索引擎...

分类：Web程序时间：2014-06-27 09:37:22 阅读次数：15554

Codeforces 216D Spider's Web 树状数组+模拟

题目链接：http://codeforces.com/problemset/problem/216/D 题意：对于一个梯形区域，如果梯形左边的点数！=梯形右边的点数，那么这个梯形为红色，否则为绿色，问：给定的蜘蛛网中有多少个红色。 2个树状数组维护2个线段。然后暴力模拟一下，因为点数很多但需要用到的线段树只有3条，所以类似滚动数组的思想优化内存。 #include #includ...

分类：Web程序时间：2014-06-22 07:11:35 阅读次数：205

定向数据爬虫和搜索引擎(Directional Spider)设计文档

定向数据网络爬虫和搜索引擎项目设计（新闻数据抓取、分析、加工、检索）版本号： v 1.0.0 编写人：张文豪日期： 2014年6月10日文档说明：这个文档还在编写之中，文章中很多写在“保留”二字的不是每月东西，而是没有写。虽然没有具体实现，但是我觉得我把我的经验和思考都写进去了。虽然对于读...

分类：其他好文时间：2014-06-15 08:25:48 阅读次数：399

linux服务之hi-spiler

海蜘蛛http://docs.hi-spider.com/user_guide.V8/index.html单击海蜘蛛路由左上方logo图标即可进入海蜘蛛路由首页界面。在线用户数是指用户在线半小时以上的主机数，活动用户指经过路由上网有流量的主机数，PPP用户指以PPPoE拨号方式连接到路由的主机数。当...

分类：系统相关时间：2014-06-13 20:18:24 阅读次数：330

MySQL及其分支或衍生版

MariaDBMariaDB 是一个采用 Maria 存储引擎的 MySQL 分支版本，是由原来 MySQL 的作者 Michael Widenius 创办的公司所开发的免费开源的数据库服务器。Spider in MariaDBKentoku ShibaSlides: Spider_in_Maria...

分类：数据库时间：2014-06-05 16:10:14 阅读次数：412

共1087条上一页 1 ... 106 107 108 109 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)