python爬虫基础 "python爬虫基础(一)基础信息" "python爬虫基础(二)Request库" ...
分类:
编程语言 时间:
2020-04-28 19:00:56
阅读次数:
79
模块: requests:伪造浏览器发起Http请求 bs4:将html格式的字符串解析成对象, 对象.find / find_all 示例1:爬取汽车之家新闻 (什么都不需要) import requests from bs4 import BeautifulSoup response = req ...
分类:
其他好文 时间:
2020-04-27 17:50:56
阅读次数:
82
html 爬虫基础 概念 模拟浏览器发送网络请求,获取响应 分类 通用爬虫 搜索引擎的爬虫,面对整个互联网上所有的网站 聚焦爬虫 针对特定网站的爬虫 分类标准:爬虫爬取的范围 流程 1.url 2.发送请求,获取响应 (提取url地址,发送下一次请求) 3.提取数据 保存 rebots协议 道德层面 ...
分类:
其他好文 时间:
2020-04-20 01:32:33
阅读次数:
90
聚焦爬虫的流程 得到url_list即需要爬取的url地址, 发起请求,返回响应内容, 如果响应内容中还有你需要爬取的url再添加到url_list中, 再次发起请求,直到没有url或者不需要爬取的url, 提取数据,提取需要的数据, 最后一步,把数据存入数据库 requests模块 作用:发起请求 ...
分类:
其他好文 时间:
2020-04-12 18:22:17
阅读次数:
52
刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 什么是 Urllib 库? urllib 库 是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口,使访问 www 和 ftp 上的数据就像访问本地文件一样。 有以下几种模块: 1.urll ...
分类:
编程语言 时间:
2020-03-01 20:05:26
阅读次数:
88
Mongodb数据库 一、MongoDB简介: 1、Mongodb:文档数据库,存储的是文档(Bson→json的二进制化),json数据存储的就是js中对象和数组。 2、MongoDB特点:内部执行引擎为JS解释器,把文档储存成bson结构,在查询时转换为JS对象,并可以通过熟悉的js语法来操作。 ...
分类:
其他好文 时间:
2020-02-22 12:10:44
阅读次数:
52
一、多线程爬虫 (一)程序、进程与线程: 程序:相当于一个应用。 进程:程序运行资源(内存资源)的最小分配单位,一个程序可以有多个进程。 线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。 线程的划分尺度比进程小。 (二)为什么多进程和多线程可以提高程序 ...
分类:
其他好文 时间:
2020-02-18 18:23:20
阅读次数:
58
爬虫基础练习——抓取网页数据 题目:抓取http://www.cntour.cn/首页新闻 分析:依次找到要抓取的数据的节点 使用筛选器依次找到要抓取的节点 #main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a 然后代 ...
分类:
编程语言 时间:
2020-02-03 22:04:01
阅读次数:
88
学习内容: 1.Selenium详解 1.Selenium:自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题 2.安装:pip3 install selenium 3.声明浏览器对象 from selenium import webdriver browser = w ...
分类:
其他好文 时间:
2020-01-25 11:48:22
阅读次数:
108
categories: 爬虫 tags: urlopen urlretrieve urlencode parse_qs urlparse urlsplit urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数 ...
分类:
Web程序 时间:
2020-01-16 21:51:59
阅读次数:
126