在爬百度"今日热点事件排行榜"的时候发现打印在控制台的中文全部显示乱码,开始怀疑控制台的原因导致了乱码,后来输出一个中文,发现显示正常。 执行代码控制台返回一串乱码 查看网页的源码发现网页的编码方式gbk,BeautifulSoup解析后得到的soup,打印出来是乱码,实际上其本身已经是正确的(从原 ...
分类:
编程语言 时间:
2017-04-25 00:42:09
阅读次数:
238
1 from bs4 import BeautifulSoup 2 import os 3 import requests 4 5 #获取页面内容 6 def getHtmlText(url, s='text'): 7 try: 8 r = requests.get(url, timeout=30)... ...
分类:
其他好文 时间:
2017-04-24 23:03:53
阅读次数:
365
import requests import os import re import re import urllib import urllib.parse from bs4 import BeautifulSoup count=0#小类的个数 all_url='http://category.d ...
分类:
其他好文 时间:
2017-04-22 14:39:50
阅读次数:
133
import requests from bs4 import BeautifulSoup import urllib.request import urllib.parse import os import re import sys j=0 keyword=input("请输入搜索信息:")#输 ...
分类:
其他好文 时间:
2017-04-22 14:37:35
阅读次数:
137
如果熟悉jquery,那么使用pyquery进行网页信息提取将会是非常方便的,因为语法都是一样的 1、字符串初始化 2、url和文件初始化 3、CSS选择器 4、子元素 5、父元素 6、兄弟节点 7、遍历元素 8、获取属性 9、获取文本,这里跟beautifulsoup一样 10、获取html 11 ...
分类:
编程语言 时间:
2017-04-14 14:17:23
阅读次数:
216
爬虫主要就是要过滤掉网页中无用的信息,抓取网页中有用的信息
一般的爬虫架构为:
在python爬虫之前先要对网页的结构知识有一定的了解,如网页的标签,网页的语言等知识,推荐去W3School:...
分类:
编程语言 时间:
2017-04-13 20:25:12
阅读次数:
423
1 基本信息 Beautiful Soup是用于处理解析页面信息的 具体的说, Beautiful Soup库是解析, 遍历, 维护"标签树"的功能库 安装方法 最基本的使用 2 基本元素 Beautiful Soup处理的内容文档一般是HTML页面 HTML页面是标签对形成的 这些标签对最终会形成 ...
分类:
其他好文 时间:
2017-04-12 21:48:02
阅读次数:
128
BeautifulSoup将复杂的html文档转换成一个复杂的树形结构,每个节点都是python对象,所有的对象可归纳为4种 1、tag tag是什么,通俗点讲,就是html中的一个标签例如 <title>The Dormouse's story</title> <a class='sister' ...
分类:
其他好文 时间:
2017-04-08 13:54:33
阅读次数:
148
FAQ记录 1. 错误源码 错误源码如下 def fillUnivList(_html,_ulist): soup =BeautifulSoup(_html,'html.parser') for tr in soup.find_all('tbody').children: if isinstance ...
分类:
编程语言 时间:
2017-04-08 00:44:17
阅读次数:
311
分类: Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml 这里说下lxml,lxml是python的一个html、xml解析库,lxml使用XPath能快速 ...
分类:
编程语言 时间:
2017-04-07 20:02:15
阅读次数:
387