搜索关键字：beautifulsoup，搜索到1186个结果！码迷,mamicode.com！

python BeautifulSoup获取网页正文

通过BeautifulSoup库的get_text方法找到网页的正文：#!/usr/bin/envpython #coding=utf-8 #HTML找出正文 importrequests frombs4importBeautifulSoup url=‘http://www.baidu.com‘ html=requests.get(url) soup=BeautifulSoup(html.text) printsoup.get_text()

分类：编程语言时间：2016-06-27 00:12:04 阅读次数：528

python BeautifulSoup获取网页链接的文字内容

这里和获取链接略有不同，不是得到链接到url，而是获取每个链接的文字内容#!/opt/yrd_soft/bin/python importre importurllib2 importrequests importlxml frombs4importBeautifulSoup url=‘http://www.baidu.com‘ #page=urllib2.urlopen(url) page=requests.get(url).text ..

分类：编程语言时间：2016-06-27 00:09:57 阅读次数：240

网络爬虫（3）--Beautiful页面解析

前面2节中对页面内容的访问都是直接通过标签访问的，这样虽然也可以达到解析页面内容的目的，但是在网页复杂，页面结构发生变化时，爬虫就失效了。为了使爬虫能够更加鲁棒的工作，我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法： BeautifulSoup ...

分类：其他好文时间：2016-06-26 16:49:50 阅读次数：135

BeautifulSoup 的用法

转自：http://cuiqingcai.com/1319.html Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。 <thead”> ...

分类：其他好文时间：2016-06-19 22:44:43 阅读次数：305

爬虫实战(1)

看完了BeautifulSoup的官方文档, 今天试着爬了一波自家学校moodle, 写了一个简陋查分器, 还算是成功, 代码已经扔在github上了, 感兴趣的朋友可以去看看. https://github.com/zhang77595103/web-crawler 今天模仿大神xlzd, 准备先 ...

分类：其他好文时间：2016-06-18 01:21:37 阅读次数：139

读BeautifulSoup官方文档之html树的打印

prettify()能返回一个格式良好的html的Unicode字符串 : 但是你只是想要一个代表该html的字符串, 并不在乎它的格式, 你可以使用str()或者unicode()...这里str()返回的是格式为utf8的字符串, 你可以使用encode使它变为bytestring或者decod ...

分类：Web程序时间：2016-06-17 12:31:25 阅读次数：492

读BeautifulSoup官方文档之html树的修改

修改html树无非是对其中标签的改动, 改动标签的名字(也就是类型), 属性和标签里的内容... 先讲这边提供了很方便的方法来对其进行改动... 然后是改动内容 : 当然你还可以用append(), 我让我奇怪的是使用append()之后的效果看上去是一样的, 但是调用.contents却会发现其实 ...

分类：Web程序时间：2016-06-17 11:08:04 阅读次数：313

读BeautifulSoup官方文档之html树的搜索(2)

除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的... Signature: find_parents(name, attrs, string, l ...

分类：Web程序时间：2016-06-16 19:41:26 阅读次数：270

读BeautifulSoup官方文档之html树的搜索(1)

之前介绍了有关的四个对象以及他们的属性, 但是一般情况下要在杂乱的html中提取我们所需的tag(tag中包含的信息)是比较复杂的, 现在我们可以来看看到底有些什么搜索的方法. 最主要的两个方法当然是find_all()和find(), 两者大致思路相同, 只不过一个前者返回符合条件的所有tags, ...

分类：Web程序时间：2016-06-16 17:46:52 阅读次数：178

如何验证代理有效

【如何验证代理有效】在百度输入IP，百度即会显示他所认为的你的IP。当不使用代理时，显示的即为你的真实IP，当使用高匿代理时，显示的即为代理IP。下图为不使用代理时的情形：用BeautifulSoup写了一个简易的使用了代理的web浏览器。为一个代理程序使用代理时的情形： ...

分类：其他好文时间：2016-06-16 01:27:03 阅读次数：215

共1186条上一页 1 ... 100 101 102 103 104 ... 119 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)