搜索关键字：beautifulsoup，搜索到1186个结果！码迷,mamicode.com！

Python beautifulsoup 中文乱码

在爬百度"今日热点事件排行榜"的时候发现打印在控制台的中文全部显示乱码，开始怀疑控制台的原因导致了乱码，后来输出一个中文，发现显示正常。执行代码控制台返回一串乱码查看网页的源码发现网页的编码方式gbk，BeautifulSoup解析后得到的soup，打印出来是乱码，实际上其本身已经是正确的（从原 ...

分类：编程语言时间：2017-04-25 00:42:09 阅读次数：238

爬站长之家表情包

1 from bs4 import BeautifulSoup 2 import os 3 import requests 4 5 #获取页面内容 6 def getHtmlText(url, s='text'): 7 try: 8 r = requests.get(url, timeout=30)... ...

分类：其他好文时间：2017-04-24 23:03:53 阅读次数：365

当当网

import requests import os import re import re import urllib import urllib.parse from bs4 import BeautifulSoup count=0#小类的个数 all_url='http://category.d ...

分类：其他好文时间：2017-04-22 14:39:50 阅读次数：133

百度图片

import requests from bs4 import BeautifulSoup import urllib.request import urllib.parse import os import re import sys j=0 keyword=input("请输入搜索信息:")#输 ...

分类：其他好文时间：2017-04-22 14:37:35 阅读次数：137

python之pyquery库

如果熟悉jquery，那么使用pyquery进行网页信息提取将会是非常方便的，因为语法都是一样的 1、字符串初始化 2、url和文件初始化 3、CSS选择器 4、子元素 5、父元素 6、兄弟节点 7、遍历元素 8、获取属性 9、获取文本，这里跟beautifulsoup一样 10、获取html 11 ...

分类：编程语言时间：2017-04-14 14:17:23 阅读次数：216

Python爬虫：用BeautifulSoup进行NBA数据爬取

爬虫主要就是要过滤掉网页中无用的信息，抓取网页中有用的信息一般的爬虫架构为：在python爬虫之前先要对网页的结构知识有一定的了解，如网页的标签，网页的语言等知识，推荐去W3School：...

分类：编程语言时间：2017-04-13 20:25:12 阅读次数：423

Mooc爬虫03-BeautifulSoup

1 基本信息 Beautiful Soup是用于处理解析页面信息的具体的说, Beautiful Soup库是解析, 遍历, 维护"标签树"的功能库安装方法最基本的使用 2 基本元素 Beautiful Soup处理的内容文档一般是HTML页面 HTML页面是标签对形成的这些标签对最终会形成 ...

分类：其他好文时间：2017-04-12 21:48:02 阅读次数：128

四大对象种类

BeautifulSoup将复杂的html文档转换成一个复杂的树形结构，每个节点都是python对象，所有的对象可归纳为4种 1、tag tag是什么，通俗点讲，就是html中的一个标签例如 <title>The Dormouse's story</title> <a class='sister' ...

分类：其他好文时间：2017-04-08 13:54:33 阅读次数：148

python 学习之FAQ:find 与 find_all 使用

FAQ记录 1. 错误源码错误源码如下 def fillUnivList(_html,_ulist): soup =BeautifulSoup(_html,'html.parser') for tr in soup.find_all('tbody').children: if isinstance ...

分类：编程语言时间：2017-04-08 00:44:17 阅读次数：311

Python+requests 爬取网站遇到中文乱码怎么办？

分类： Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml 这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速 ...

分类：编程语言时间：2017-04-07 20:02:15 阅读次数：387

共1186条上一页 1 ... 89 90 91 92 93 ... 119 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)