1.安装 cmd >>pip install beautifulsoup4 2.安装测试。 煲汤过程可以总结为: 3. BeautifulSoup 的基本元素。 3.1 Tag标签 3.2 标签的名字 3.3 标签的属性 (不懂有什么用) 3.4 标签的字符串 3.5 注释。 ...
分类:
其他好文 时间:
2017-07-23 00:46:22
阅读次数:
310
BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。 其相较与正则而言,使用更加简单。 示例: 首先必须要导入bs4库 运行结果 四大对象种类 BeautifulSoup将复杂的HTML文档转换成 ...
分类:
其他好文 时间:
2017-07-22 18:14:34
阅读次数:
447
之前看爬虫的时候,看到这里就断了,一直不太理解这2个的区别。 今天重新看,也借助了这位哥们的方法,把结果打印出来,我大概知道了这2者的区别。 http://www.cnblogs.com/chensimin1990/p/6725803.html 代码是这样的 这是结果 用children的函数(?不 ...
分类:
其他好文 时间:
2017-07-22 13:25:08
阅读次数:
188
comment =""" <p id="i1"> 我是中国人 </p> <p > <script>alert(123)</script> </p> <p id="i2"> <span>我是中国人</span> </p> <p> <br /> </p> <p id="i3"> <span>我是中国人< ...
分类:
其他好文 时间:
2017-07-20 18:49:02
阅读次数:
211
1、需求说明 需求: 爬取虎嗅网站的所有新闻,并保存到数据库中。 http://www.huxiu.com 技术: 1、爬虫 获取服务器的资源(urllib) 解析html网页(BeautifulSoup) 2、数据库技术 数据库 MySQLdb 业务逻辑的分析: (1)、虎嗅网站的新闻,包括首页和 ...
分类:
数据库 时间:
2017-07-17 23:56:54
阅读次数:
516
BeautifulSoup BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单 1、安装: 2、简单使用: 3、标签方法: ① name标签名称 ② at ...
分类:
编程语言 时间:
2017-07-16 18:30:08
阅读次数:
204
1.安装 2.代码文件中导入 3. Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 速度快 文档容错能力强 需要安装C语言库 速度快 唯一支持XML的解析器 需要安装C语言库 最好的容错性 以浏览器的方式解析文档 生成H ...
分类:
编程语言 时间:
2017-07-16 09:57:18
阅读次数:
2498
import pymysql import requests from bs4 import BeautifulSoup baseUrl = "https://movie.douban.com/top250?start=%d&filter=" def get_movies(start): url =... ...
分类:
数据库 时间:
2017-07-15 14:55:30
阅读次数:
184
#coding=utf-8 import os import urllib import urllib2 import re from bs4 import BeautifulSoup # 利用 urllib.urlretrieve() 函数进行下载。非常方便 import socket #超时时间... ...
分类:
编程语言 时间:
2017-07-14 10:03:46
阅读次数:
150
恢复内容开始 这两天 部署 这个 工程 ,真的是 心力交瘁惹。 如果有用到爬虫的话,python环境 先配好,如果是 python3的话 beautifulsoup 可以参见 linux安装python3.6 及 beautifulsoup http://www.cnblogs.com/clover ...
分类:
编程语言 时间:
2017-07-13 20:26:02
阅读次数:
381