码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫的一些题目

时间:2019-04-24 20:57:56      阅读:644      评论:0      收藏:0      [点我收藏+]

标签:数据   差距   切片   数据结构   python   种类   非关系型数据库   登陆   传参   

一.项目问题:

1. 你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的

2. 你写爬虫的时候 使用的什么框架 选择这个框架的原因是什么

 

技术图片

 

二.框架问题:

1.scrapy的基本结构(五个部分都是什么,请求发出去的整个流程)

2.scrapy的去重原理(指纹去重到底是什么原理)

 

技术图片

 

3.scrapy中间件有几种类,你用过哪些中间件

4.scrapy中间件在哪里起的作业(面向切片编程)

三.代理问题:

1.为什么会用到代理

2.代理怎么使用(具体代码, 请求在什么时候添加的代理)

3.代理失效了怎么处理

 

技术图片

 

四.验证码处理:

1.登录验证码处理

2.爬取速度过快出现的验证码处理

3.如何用机器识别验证码

 

技术图片

 

五.模拟登陆问题:

1.模拟登陆流程

2.cookie如何处理

3.如何处理网站传参加密的情况

 

技术图片

 

六.分布式:

1.分布式原理

2.分布式如何判断爬虫已经停止了

3.分布式的去重原理

 

技术图片

 

七.数据存储和数据库问题:

1.关系型数据库和非关系型数据库的区别

2.爬下来数据你会选择什么存储方式,为什么

3.各种数据库支持的数据类型,和特点

4.是否支持事务...

八.Python基础问题:

1.Python2和Python3的区别,如何实现python2代码迁移到Python3环境

2.Python2和Python3的编码方式有什么差别

3.迭代器,生成器,装饰器

4.Python的数据类型

 

技术图片

 

九.协议问题:

1.http协议,请求由什么组成,每个字段分别有什么用,https和http有什么差距

2.证书问题

3.TCP,UDP各种相关问题

 

技术图片

 

十.数据提取问题:

1.主要使用什么样的结构化数据提取方式,可能会写一两个例子

2.正则的使用

3.动态加载的数据如何提取

4.json数据如何提取

 

技术图片

 

十一.算法问题:

1.你们要善用Python的数据类型,对Python的数据结构深入了解。

爬虫的一些题目

标签:数据   差距   切片   数据结构   python   种类   非关系型数据库   登陆   传参   

原文地址:https://www.cnblogs.com/myiuni/p/10764838.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!