一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful ...
分类:
其他好文 时间:
2018-01-14 01:00:59
阅读次数:
170
下面我做的莫名其妙的代码格式化是因为这个 --。-- 首先大致说一下XSS,就是在HTML里插入恶意的javascript代码,使得在该HTML加载时执行恶意代码,达到攻击的目的。 可能存在的地方呢,就是只要是用户能输入的地方那么就可能产生XSS,包括像博客园这种能看到输入形成的HTML的编辑器。 ...
分类:
编程语言 时间:
2018-01-12 22:37:18
阅读次数:
304
导入BeautifulSoup,出现下面错误: Python 2.7.14 (default, Sep 17 2017, 18:50:44) [GCC 7.2.0] on linux2Type "help", "copyright", "credits" or "license" for more ...
分类:
其他好文 时间:
2018-01-09 16:45:33
阅读次数:
1103
本篇主要介绍,爬取html数据后,将html的正文内容存储为json或csv格式。1json格式存储选定要爬取的网站后,我们利用之前学过的内容,如:BeautifulSoup、xpath等方式解析,来获取我们希望得到的内容。1.1获取数据首先使用urllib访问页面https://www.lagou.com/zhaopin/Python/?labelWords=label获取html内容,代码如下
分类:
数据库 时间:
2018-01-09 10:19:09
阅读次数:
280
一、Beautiful Soup 库的安装 Win平台:“以管理员身份运行” cmd 执行 pip install beautifulsoup4 安装小测:from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data</p>','html.par ...
分类:
编程语言 时间:
2018-01-08 01:08:16
阅读次数:
198
BeautifulSoup中可以通过name和attrs去定位名称和属性,以找到特定的html代码。更值得称赞的是,attrs支持正则表达式。 如: <div class="cool"> <h1 class="abc">design</h1> </div> 搜索此行,可以这样写 abcSoup = ...
分类:
编程语言 时间:
2018-01-07 20:16:04
阅读次数:
284
最近一直在关注Python写爬虫相关的知识,尝试了采用requests+BeautifulSoup来爬取房天下(原搜房网)的推荐新楼盘。不用不知道,一用发现有惊喜也有惊吓,本文就一同记录下惊喜和踩的一些乱码的坑。首先,觉得Beautifulsoup解析网页更加符合人类的常规思维,比使用正则表达式(python中的re库)更容易理解。同时关于requests遇到了中文字符和特殊字符解码的问题。本文都
分类:
编程语言 时间:
2018-01-07 14:08:32
阅读次数:
182
Anaconda3里边自带了bs4的包,省的我自己安装了。 最近觉得模块化的写法可以让代码变得清晰易读。而且随着代码的增多,找bug也会更方便。(目前我还写不出这么多)而且模块化有种工具化的思想,拿来主义的思想在里面,使用工具可是人等少数智慧动物的专利啊。之后也要多学习使用[try - except ...
分类:
编程语言 时间:
2018-01-04 16:32:03
阅读次数:
644
Python3.x的BeautifulSoup解析html常用函数 1,初始化: 2,用tag获取相应代码块的剖析树: contents属性是一个列表,里面保存了该剖析树的直接儿子,如: 3,用contents[], parent, nextSibling, previousSibling寻找父子兄 ...
分类:
编程语言 时间:
2017-12-28 19:51:59
阅读次数:
197