#coding:utf-8import sys,urllib2,re,Queuesys.path.append("..")from lib.Http_Class import Http_Classfrom BeautifulSoup import BeautifulSoup#############...
分类:
编程语言 时间:
2014-07-07 20:49:39
阅读次数:
350
进行抓取页面,我看了一下人家的教程,一般要用到htmlparser用来解析html得到一个网页的相关链接,用httpclient抓取网页数据,下面是一我写的spider类package com.openzone.search.spider;import java.io.BufferedReader;...
分类:
编程语言 时间:
2014-07-01 21:43:29
阅读次数:
261
第1讲Java学习路线&怎么学习Java1概述学过一段时间的同学一定会觉得Java学习最头疼的不是语法结构的繁杂,而是Java本身体系结构的庞大。以至于自己不知道接下去该学什么,或者什么样的知识才会对后续的学习有帮助。本节内容将让大家对Java学习的路线有个宏观的把握。在与市场接轨的前提下,我们会推...
分类:
编程语言 时间:
2014-07-01 21:06:36
阅读次数:
404
还记得字典吗?[html]view plaincopyvarnumberOfLegs=["spider":8,"ant":6,"cat":4]numberOfLegs["bird"]=2["bird"]就是下标 下标可以在类和结构体中定义。定义下标[html]view plaincopysubscr...
分类:
其他好文 时间:
2014-06-30 21:59:22
阅读次数:
271
最近是不止一点盲目了,不知道该干啥,转几个文章综合看看吧。文一本文旨在讨论如成为一名真正的PHP开发者.本文不把三个月学会PHP的人纳入讨论的范围.本文讨论的重点在于PHP学习及开发的持久性与外延性.当许多人把自己三个月学会PHP当作一种资本到处炫耀时.当这些人炫耀过后又转投其它语言时.我必需告诉你...
分类:
Web程序 时间:
2014-06-30 15:35:22
阅读次数:
289
1.《大话设计模式》
2.《Head First设计模式》
3.《设计模式:可复用面向对象软件的基础》...
分类:
其他好文 时间:
2014-06-30 07:35:10
阅读次数:
180
scrapy spider的parse方法可以返回两种值:BaseItem,或者Request。通过Request可以实现递归搜索。
如果要抓取的数据在当前页,可以直接解析返回item(代码中带**注释的行直接改为yield item);
如果要抓取的数据在当前页指向的页面,则返回Request并指定parse_item作为callback;
如果要抓取的数据当前页有一部分,指向的页面有一部分(比如博客或论坛,当前页有标题、摘要和url,详情页面有完整内容)这种情况需要用Request的meta参数把...
分类:
Web程序 时间:
2014-06-27 09:46:13
阅读次数:
333
一.目的。
在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,
在pipelines.py中实现获得数据的过滤以及保存。
但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎...
分类:
Web程序 时间:
2014-06-27 09:37:22
阅读次数:
15554
优秀的前端工程师养成,并非一朝一夕,需要大量的学习和积累。作为初学者,该怎么入门呢,怎么选择我的学习路线和各种工具呢?...
分类:
Web程序 时间:
2014-06-22 18:05:37
阅读次数:
218
题目链接:http://codeforces.com/problemset/problem/216/D
题意:
对于一个梯形区域,如果梯形左边的点数!=梯形右边的点数,那么这个梯形为红色,否则为绿色,
问:
给定的蜘蛛网中有多少个红色。
2个树状数组维护2个线段。然后暴力模拟一下,因为点数很多但需要用到的线段树只有3条,所以类似滚动数组的思想优化内存。
#include
#includ...
分类:
Web程序 时间:
2014-06-22 07:11:35
阅读次数:
205