什么是BeautifulSoup? BeautifulSoup支持的一些解析库 基本使用 <html> <head> <title> The Dormouse's story </title> </head> <body> <p class="title" name="dromouse"> <b> ...
分类:
其他好文 时间:
2018-09-21 15:03:35
阅读次数:
114
学习网络抓取时,第一步出现问题。 执行示例代码 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/exercises/exerc ...
分类:
编程语言 时间:
2018-09-16 22:03:19
阅读次数:
782
1 import requests 2 from bs4 import BeautifulSoup 3 res = requests.get('http://sh.esf.fang.com/chushou/3_328298194.htm?channel=1,2&psid=1_37_70') 4 so... ...
分类:
编程语言 时间:
2018-09-16 16:15:58
阅读次数:
279
BeautifulSoup官方文档:https://beautifulsoup.readthedocs.io/zh_CN/latest/#id8 太繁琐的,精简了一些自己用的到的。 1.index.html 2..prettify()--标准的缩进格式输出 3.选择标签,属性 ...
分类:
其他好文 时间:
2018-09-13 17:31:41
阅读次数:
209
一. 进程和线程的区别? 第一: 进程是cpu资源分配的最小单元。 线程是cpu计算的最小单元。 第二: 一个进程中可以有多个线程。 第三: 对于Python来说他的进程和线程和其他语言有差异,是有GIL锁。 GIL锁保证一个进程中同一时刻只有一个线程被cpu调度。 IO密集型操作可以使用多线程;计 ...
分类:
编程语言 时间:
2018-09-12 21:09:14
阅读次数:
210
爬虫系列之第2章-BS和Xpath模块 知识预览 BeautifulSoup xpath BeautifulSoup 一 简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: ''' Beautiful Soup提供一些简单的、python ...
分类:
其他好文 时间:
2018-09-12 01:06:32
阅读次数:
350
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式。 1. 相关链接 官方文档:https://www.crummy.com/software/BeautifulSoup/bs ...
分类:
编程语言 时间:
2018-09-11 16:18:40
阅读次数:
183
一、BeautifulSoup模块 二、博文简介 三、过滤恶意标签 一、BeautifulSoup模块 pip install bs4 # 安装bs4 from bs4 import BeautifulSoup # 导入BeautifulSoup 二、博文简介 from bs4 import Bea ...
分类:
其他好文 时间:
2018-09-11 01:07:26
阅读次数:
243
豆瓣# coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://movie.douban.com/") bsObj = BeautifulSoup(... ...
分类:
编程语言 时间:
2018-09-09 19:45:26
阅读次数:
338
获取酷狗TOP 100 http://www.kugou.com/yy/rank/home/1-8888.html 排名 文件&&歌手 时长 效果: 附源码: import time import json from bs4 import BeautifulSoup import requests ... ...
分类:
编程语言 时间:
2018-09-09 18:08:59
阅读次数:
874