安装 pip install beautifulsoup4 小测 1. 即使安装的是beautifulsoup4,但是使用时简写为bs4 2. 从bs4库导入一个BeautifulSoup类,注意B和S大写 3. html.parser为解析器,还有xml,lxml, html5lib等解析器 bs ...
分类:
编程语言 时间:
2020-03-09 22:25:39
阅读次数:
65
PC端: Python莫言:https://www.cnblogs.com/Python-XiaCaiP/p/12448041.html PC_USER_AGENT = [ 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Mozilla/ ...
分类:
编程语言 时间:
2020-03-09 13:53:08
阅读次数:
117
第一步:引入库 import time import base64 import rsa import binascii import requests import re from PIL import Image import random from urllib.parse import qu ...
分类:
编程语言 时间:
2020-03-07 23:50:43
阅读次数:
187
爬虫是什么?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛。 ...
分类:
编程语言 时间:
2020-03-07 16:03:35
阅读次数:
65
豆瓣这个网站做网络爬虫的例子教学是极好的,我这个入门者今天也来分享下自己的第一个爬虫例程~ (●'?'●) 爬虫的过程由数据获取+数据解析来组成: 数据获取—— 1 选择数据获取工具 想要爬取有用的数据,首先要获得数据 抓取数据主要有以下几种方式: 1)urllib内建模块,尤其是urllib.re ...
分类:
编程语言 时间:
2020-03-07 00:08:27
阅读次数:
127
最近在学习python爬虫,简单易上手,而且有成就感。爬虫不仅需要一个url地址,headers,而且Cookie也是必须的。下面我总结三种方法关于cookie的相关请求 不管第几种,我们都得先要登录进去想要爬虫的网页,来获取cookie(通过抓包方式) 第一种:将获取的cookie放到我们的hea ...
分类:
编程语言 时间:
2020-03-06 22:16:44
阅读次数:
108
导读:学习python爬虫很久了,一直习惯于requests抓取+xpath解析的两步走套路,直到我今天发现了pyquery这个爬虫利器后,才意识到python的世界没有最简,只有更简…… 2020-03-06 21:22:12 01 pyquery简介 pyquery是Python的一个第三方爬虫 ...
分类:
其他好文 时间:
2020-03-06 21:48:32
阅读次数:
68
https://yq.aliyun.com/articles/603329 在当前的数据库系统生态中,大部分系统都支持多个节点实例间的数据同步机制,如Mysql Master/Slave主从同步,Redis AOF主从同步等,MongoDB更是支持3节点及以上的副本集同步,上述机制很好的支撑了一个逻 ...
分类:
数据库 时间:
2020-03-06 10:37:45
阅读次数:
121
一、正则常用的方法 1.match:从开始位置开始查找,一次匹配 2.sear?ch:从任何位置查找,一次匹配 3.findall?:全部匹配,返回列表 4.finditer?:全部匹配,返回迭代器 5.?split:分割字符串,返回列表 ?6.sub:替换 7.匹配中文 中文unicode编码[u ...
分类:
编程语言 时间:
2020-03-06 01:49:15
阅读次数:
67
1、BeautifulSoup4库也是一个HTML/XML解析器,主要也是提取数据。lxml只会局部遍历,BeautifulSoup是基于HTML DOM的,会载入整个文档,建立一个树状结构,在解析HTML时比较简单。 from bs4 import BeautifulSoup html=" 一段代 ...
分类:
编程语言 时间:
2020-03-04 23:37:55
阅读次数:
129