码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫的基本知识

时间:2020-03-31 14:48:18      阅读:81      评论:0      收藏:0      [点我收藏+]

标签:robots   dns   数据解析   复制   urllib   搜索   https   其他   作用   

# 聚焦爬虫的设计思路:
1.确定url, 发起请求, 获取响应---> 抓包, requests, urllib, aiohttp, scrapy
2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery
3.数据持久化 --> 文件系统, 数据库 --> MySQL, MongoDB, redis--> 介绍, 数据类型, 常用操作:增删改查, 主从复制, 集群的搭建

 

 

# 聚焦爬虫
针对某一领域抓取特定数据的爬虫程序(主题爬虫, 垂直领域爬取)
某一领域: 电商; 金融量化分析--> 股票网站, 金融咨询类
特定数据: 响应数据中的一本分, 目标数据 ---> 数据解析来实现的

 

 

# 通用爬虫: 爬虫程序. 爬取数据为搜索引擎提供检索服务
# 通用爬虫架构: 如下图
# 使搜索引擎获取到你的网站:
1).主动提交: https://ziyuan.baidu.com/linksubmit/url
2).设置友情链接
3).搜索引擎与DNS服务商合作
# SEO排名
1).花钱--->百度竞价
2).pagerank(流量点击率)
# 缺点: 抓取的内容多, 但是多数无用; 不能精准解析数据

# robots协议:
1.作用: 约定了网站哪些页面不允许哪些爬虫爬取
2.代表除了以上规定的爬虫, 其他任何和爬虫不允许爬取我任何页面(包括聚焦爬虫)
User-agent: *
Disallow: /

爬虫的基本知识

标签:robots   dns   数据解析   复制   urllib   搜索   https   其他   作用   

原文地址:https://www.cnblogs.com/ahmy/p/12604692.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!