码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫—心蓝(20161016)

时间:2018-10-17 00:25:06      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:信息   协议   url   前端   事务   接收   install   网上   pyc   

课题:爬取58同城房产信息
一、服务器架构:

1.C/S:(client/server)客户端/服务器
客户端提供请求,服务端响应请求进行对应的处理,并返回给客户端,客户端来显示这些内容。
2.B/S:B/S(browser/server) 浏览器/服务器
用户界面是完全通过www浏览器来实现,一部分事务在前端实现,主要事务逻辑再服务器端实现。

二、rul和http
url:全球统一资源定位符。(网址,地址)
http协议:是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。
设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。
网络资源:公国互联网可以访问到的网页,图片,流媒体,文件,接口。
一个网页一般有多个网络资源组成。
一次http请求一般只能请求一个网络资源。

三、Web原理:
客户端浏览器->http请求->cocket服务->服务器 路由系统分发请求
->业务模块->处理http请求->http响应->客户端浏览器

四、用爬虫获取数据
1.目标数据 找到所在网页的 URL。
2.分析Http请求流程,找到下载目标数据的那条http请求。
3.伪造这个http请求流程 url method data headers 下载数据。
4.提取和清洗数据。
5.数据持久化。保存到本地文件,保存到数据库。

五、开发环境:
python3 + windows +pycharm
第三方库:requests 安装 pip install requests 命令行

代码部分:










爬虫—心蓝(20161016)

标签:信息   协议   url   前端   事务   接收   install   网上   pyc   

原文地址:https://www.cnblogs.com/wxq201810/p/9800882.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!