爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息。 ...
分类:
编程语言 时间:
2017-07-21 10:50:06
阅读次数:
272
今日课程:PHP3天基础巩固视频教程【燕十八】1、超全局变量/*
$_SESSION
$_COOKIE
$_FILES
$_ENV//服务器操作系统的环境变量。如操作系统;类型,Linux、win、mac、环境变量等
$_SERVER//
$GLOBALS//对全局变量花名册的别名,可以通过改变量任意访问全局变量
*/
print_r($_EN..
分类:
Web程序 时间:
2017-07-20 11:35:28
阅读次数:
220
今日课程:PHP3天基础巩固视频教程【燕十八】1、数组游标操作/*current();
next();
prev();
end();*/
//取当前游标指向的数组单元的值
$arr=array(‘a‘,‘b‘,‘c‘);
echocurrent($arr);
next($arr);
echocurrent($arr);//把数组游标往后移
end($arr);
echocurrent($arr);//把数组..
分类:
Web程序 时间:
2017-07-19 09:22:55
阅读次数:
178
一.变量 变量命名规则遵循标识符命名规则,详见第二篇 8 变量的赋值操作 与c语言的区别在于变量赋值操作无返回值 链式赋值:y=x=a=1 多元赋值:x,y=1,2 x,y=y,x 增量赋值:x+=1 回到顶部 二.数据类型 回到顶部 2.1 什么是数据类型及数据类型分类 身份:内存地址,可以用id ...
分类:
其他好文 时间:
2017-07-18 19:50:38
阅读次数:
442
这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改 ...
分类:
编程语言 时间:
2017-07-18 10:16:52
阅读次数:
179
一.操作系统基础 操作系统:(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才能运行。 注:计算机(硬件)->os->应用软件 回到顶部 二.网络通信原理 回到顶部 2.1 互联 ...
分类:
编程语言 时间:
2017-07-17 23:53:41
阅读次数:
473
今日课程:PHP3天基础巩固视频教程【燕十八】1、
分类:
Web程序 时间:
2017-07-17 21:54:27
阅读次数:
135
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X ...
分类:
编程语言 时间:
2017-07-16 12:26:51
阅读次数:
124
今日课程:PHP3天基础巩固视频教程【燕十八】1、单双引号的区别//单双引号的比如:转义、变量解析、速度
$a=‘\‘\\\n\t\$‘;//‘和\转义都需要加\,其他原样输出
echo$a;
echo"<br/>";
$b="\"\\\n\t\$";///n/t直接输出
echo$b;
echo"<br/>";
$age=10;//双引号里面的变..
分类:
Web程序 时间:
2017-07-15 20:26:05
阅读次数:
190
这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspid ...
分类:
编程语言 时间:
2017-07-15 16:44:09
阅读次数:
370