码迷,mamicode.com
首页 >  
搜索关键字:beautifulsoup    ( 1186个结果
python BeautifulSoup获取网页正文
通过BeautifulSoup库的get_text方法找到网页的正文:#!/usr/bin/envpython #coding=utf-8 #HTML找出正文 importrequests frombs4importBeautifulSoup url=‘http://www.baidu.com‘ html=requests.get(url) soup=BeautifulSoup(html.text) printsoup.get_text()
分类:编程语言   时间:2016-06-27 00:12:04    阅读次数:528
python BeautifulSoup获取 网页链接的文字内容
这里和获取链接略有不同,不是得到链接到url,而是获取每个链接的文字内容#!/opt/yrd_soft/bin/python importre importurllib2 importrequests importlxml frombs4importBeautifulSoup url=‘http://www.baidu.com‘ #page=urllib2.urlopen(url) page=requests.get(url).text ..
分类:编程语言   时间:2016-06-27 00:09:57    阅读次数:240
网络爬虫(3)--Beautiful页面解析
前面2节中对页面内容的访问都是直接通过标签访问的,这样虽然也可以达到解析页面内容的目的,但是在网页复杂,页面结构发生变化时,爬虫就失效了。为了使爬虫能够更加鲁棒的工作,我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法: BeautifulSoup ...
分类:其他好文   时间:2016-06-26 16:49:50    阅读次数:135
BeautifulSoup 的用法
转自:http://cuiqingcai.com/1319.html Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。 <thead”> ...
分类:其他好文   时间:2016-06-19 22:44:43    阅读次数:305
爬虫实战(1)
看完了BeautifulSoup的官方文档, 今天试着爬了一波自家学校moodle, 写了一个简陋查分器, 还算是成功, 代码已经扔在github上了, 感兴趣的朋友可以去看看. https://github.com/zhang77595103/web-crawler 今天模仿大神xlzd, 准备先 ...
分类:其他好文   时间:2016-06-18 01:21:37    阅读次数:139
读BeautifulSoup官方文档之html树的打印
prettify()能返回一个格式良好的html的Unicode字符串 : 但是你只是想要一个代表该html的字符串, 并不在乎它的格式, 你可以使用str()或者unicode()...这里str()返回的是格式为utf8的字符串, 你可以使用encode使它变为bytestring或者decod ...
分类:Web程序   时间:2016-06-17 12:31:25    阅读次数:492
读BeautifulSoup官方文档之html树的修改
修改html树无非是对其中标签的改动, 改动标签的名字(也就是类型), 属性和标签里的内容... 先讲这边提供了很方便的方法来对其进行改动... 然后是改动内容 : 当然你还可以用append(), 我让我奇怪的是使用append()之后的效果看上去是一样的, 但是调用.contents却会发现其实 ...
分类:Web程序   时间:2016-06-17 11:08:04    阅读次数:313
读BeautifulSoup官方文档之html树的搜索(2)
除了find()和find_all(), 这里还提供了许多类似的方法我就细讲了, 参数和用法都差不多, 最后四个是next, previous是以.next/previous_element()来说的... Signature: find_parents(name, attrs, string, l ...
分类:Web程序   时间:2016-06-16 19:41:26    阅读次数:270
读BeautifulSoup官方文档之html树的搜索(1)
之前介绍了有关的四个对象以及他们的属性, 但是一般情况下要在杂乱的html中提取我们所需的tag(tag中包含的信息)是比较复杂的, 现在我们可以来看看到底有些什么搜索的方法. 最主要的两个方法当然是find_all()和find(), 两者大致思路相同, 只不过一个前者返回符合条件的所有tags, ...
分类:Web程序   时间:2016-06-16 17:46:52    阅读次数:178
如何验证代理有效
【如何验证代理有效】 在百度输入IP,百度即会显示他所认为的你的IP。当不使用代理时,显示的即为你的真实IP,当使用高匿代理时,显示的即为代理IP。 下图为不使用代理时的情形: 用BeautifulSoup写了一个简易的使用了代理的web浏览器。 为一个代理程序使用代理时的情形: ...
分类:其他好文   时间:2016-06-16 01:27:03    阅读次数:215
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!