码迷,mamicode.com
首页 >  
搜索关键字:beautifulsoup    ( 1186个结果
Python beautifulsoup 中文乱码
在爬百度"今日热点事件排行榜"的时候发现打印在控制台的中文全部显示乱码,开始怀疑控制台的原因导致了乱码,后来输出一个中文,发现显示正常。 执行代码控制台返回一串乱码 查看网页的源码发现网页的编码方式gbk,BeautifulSoup解析后得到的soup,打印出来是乱码,实际上其本身已经是正确的(从原 ...
分类:编程语言   时间:2017-04-25 00:42:09    阅读次数:238
爬站长之家表情包
1 from bs4 import BeautifulSoup 2 import os 3 import requests 4 5 #获取页面内容 6 def getHtmlText(url, s='text'): 7 try: 8 r = requests.get(url, timeout=30)... ...
分类:其他好文   时间:2017-04-24 23:03:53    阅读次数:365
当当网
import requests import os import re import re import urllib import urllib.parse from bs4 import BeautifulSoup count=0#小类的个数 all_url='http://category.d ...
分类:其他好文   时间:2017-04-22 14:39:50    阅读次数:133
百度图片
import requests from bs4 import BeautifulSoup import urllib.request import urllib.parse import os import re import sys j=0 keyword=input("请输入搜索信息:")#输 ...
分类:其他好文   时间:2017-04-22 14:37:35    阅读次数:137
python之pyquery库
如果熟悉jquery,那么使用pyquery进行网页信息提取将会是非常方便的,因为语法都是一样的 1、字符串初始化 2、url和文件初始化 3、CSS选择器 4、子元素 5、父元素 6、兄弟节点 7、遍历元素 8、获取属性 9、获取文本,这里跟beautifulsoup一样 10、获取html 11 ...
分类:编程语言   时间:2017-04-14 14:17:23    阅读次数:216
Python爬虫:用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中无用的信息,抓取网页中有用的信息 一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解,如网页的标签,网页的语言等知识,推荐去W3School:...
分类:编程语言   时间:2017-04-13 20:25:12    阅读次数:423
Mooc爬虫03-BeautifulSoup
1 基本信息 Beautiful Soup是用于处理解析页面信息的 具体的说, Beautiful Soup库是解析, 遍历, 维护"标签树"的功能库 安装方法 最基本的使用 2 基本元素 Beautiful Soup处理的内容文档一般是HTML页面 HTML页面是标签对形成的 这些标签对最终会形成 ...
分类:其他好文   时间:2017-04-12 21:48:02    阅读次数:128
四大对象种类
BeautifulSoup将复杂的html文档转换成一个复杂的树形结构,每个节点都是python对象,所有的对象可归纳为4种 1、tag tag是什么,通俗点讲,就是html中的一个标签例如 <title>The Dormouse's story</title> <a class='sister' ...
分类:其他好文   时间:2017-04-08 13:54:33    阅读次数:148
python 学习之FAQ:find 与 find_all 使用
FAQ记录 1. 错误源码 错误源码如下 def fillUnivList(_html,_ulist): soup =BeautifulSoup(_html,'html.parser') for tr in soup.find_all('tbody').children: if isinstance ...
分类:编程语言   时间:2017-04-08 00:44:17    阅读次数:311
Python+requests 爬取网站遇到中文乱码怎么办?
分类: Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml 这里说下lxml,lxml是python的一个html、xml解析库,lxml使用XPath能快速 ...
分类:编程语言   时间:2017-04-07 20:02:15    阅读次数:387
1186条   上一页 1 ... 89 90 91 92 93 ... 119 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!