爬虫—心蓝（20161016）

时间：2018-10-17 00:25:06 阅读：165 评论：0 收藏：0 [点我收藏+]

课题：爬取58同城房产信息
一、服务器架构：
1.C/S:（client/server）客户端/服务器
客户端提供请求，服务端响应请求进行对应的处理，并返回给客户端，客户端来显示这些内容。
2.B/S:B/S(browser/server) 浏览器/服务器
用户界面是完全通过www浏览器来实现，一部分事务在前端实现，主要事务逻辑再服务器端实现。

二、rul和http
url:全球统一资源定位符。（网址，地址）
http协议：是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。
         设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。
网络资源：公国互联网可以访问到的网页，图片，流媒体，文件，接口。
一个网页一般有多个网络资源组成。
一次http请求一般只能请求一个网络资源。

三、Web原理：
客户端浏览器->http请求->cocket服务->服务器 路由系统分发请求
->业务模块->处理http请求->http响应->客户端浏览器

四、用爬虫获取数据
1.目标数据 找到所在网页的 URL。
2.分析Http请求流程，找到下载目标数据的那条http请求。
3.伪造这个http请求流程 url method  data  headers 下载数据。
4.提取和清洗数据。
5.数据持久化。保存到本地文件，保存到数据库。

五、开发环境：
   python3 + windows +pycharm
   第三方库：requests  安装 pip install requests 命令行


代码部分：

爬虫—心蓝（20161016）

标签：信息协议 url 前端事务接收 install 网上 pyc

原文地址：https://www.cnblogs.com/wxq201810/p/9800882.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行