正则表达式+BeautifulSoup爬取网页可事半功倍。 就拿百度贴吧网址来练练手:https://tieba.baidu.com/index.html 1.find_all():搜索当前节点的所有子节点,孙子节点。 下面例子是用find_all()匹配贴吧分类模块,href链接中带有“娱乐”两字 ...
分类:
其他好文 时间:
2019-11-03 14:54:59
阅读次数:
415
足球历史比赛数据 巴萨比赛录像 翻译皮球的自传《VIATGE D'ANADA i TORNADA【皮克吧】_百度贴吧 皮克往年新闻 关于罗塞尔、瓜帅、梅西的几个问题 - 巴萨专区 - 虎扑社区 截图 对皮克外公的采访_皮克吧_百度贴吧 Can We Talk About Messi's Hot Da ...
分类:
其他好文 时间:
2019-11-01 22:25:51
阅读次数:
156
单点登录(SSO)工作原理 一、单点登录的介绍 单点登录(Single Sign On),简称为 SSO,是目前比较流行的企业业务整合的解决方案之一。SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。 例如:百度旗下有很多的产品,比如百度贴吧、百度知道、百度文库等, ...
分类:
其他好文 时间:
2019-10-30 13:42:40
阅读次数:
119
虽然已经 2019 年,但还是有不少人(甚至是大部分人),一提到“开源”,想到的就是“免费”与“个人开发的业余(低水平)软件”。然而事实恰恰相反,今天“开源”正是基础软件最好的生长模式。“开源”能对基础软件公司提供三方面的助力:技术/品牌推广,用户/开发者拓展,人才吸引。 是不是言过其实?让我们一起 ...
分类:
其他好文 时间:
2019-10-25 23:22:00
阅读次数:
95
首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包 之后我们定义一个名叫BaiduSpider类用来爬取信息 属性有 url:用来爬取的网址 headers:请求头 之后我们定义三个方法 不涉及清洗数据 获取页面 保存数据 主函数 ...
分类:
编程语言 时间:
2019-10-03 21:55:36
阅读次数:
98
import requestsimport re url='http://tieba.baidu.com/photo/g/bw/picture/list?kw=%E6%9D%A8%E6%B4%8B&alt=jview&rn=200&tid=4748284434&pn=1&ps=1&pe=40&inf ...
分类:
其他好文 时间:
2019-09-26 00:35:20
阅读次数:
84
1.首先说明的是,pc端微信分享只能通过二维码来分享。 2.下面是js代码。 ...
分类:
微信 时间:
2019-09-11 10:12:47
阅读次数:
133
逻辑物理学 的 创始人 是 百度贴吧 的 灵魂保卫者, 见 百度贴吧 逻辑物理学吧 https://tieba.baidu.com/f?kw=%E9%80%BB%E8%BE%91%E7%89%A9%E7%90%86%E5%AD%A6&ie=utf-8 , 灵魂保卫者 对 逻辑物理学 的 简介 是 “ ...
分类:
其他好文 时间:
2019-08-26 16:55:42
阅读次数:
137
import requests from lxml import etree class TieBa(object): def __init__(self,query_string): self.query_string = query_string self.base_url = 'https:/... ...
分类:
其他好文 时间:
2019-08-05 13:50:39
阅读次数:
102
"来自百度贴吧" 首先,我们建立 群 的概念。 非空集合 G 上的二元运算 ° : G × G → G,如果,满足: 结合律:对于 任意 a, b, c ∈ G,有 (a ° b) ° c = a ° (b ° c); 则称 (G, °) 为 半群,如果,再满足: 有幺元:存在 e ∈ G ,对于 ...
分类:
其他好文 时间:
2019-08-03 21:30:36
阅读次数:
66