BeautifulSoup中可以通过name和attrs去定位名称和属性,以找到特定的html代码。更值得称赞的是,attrs支持正则表达式。 如: <div class="cool"> <h1 class="abc">design</h1> </div> 搜索此行,可以这样写 abcSoup = ...
分类:
编程语言 时间:
2018-01-07 20:16:04
阅读次数:
284
最近一直在关注Python写爬虫相关的知识,尝试了采用requests+BeautifulSoup来爬取房天下(原搜房网)的推荐新楼盘。不用不知道,一用发现有惊喜也有惊吓,本文就一同记录下惊喜和踩的一些乱码的坑。首先,觉得Beautifulsoup解析网页更加符合人类的常规思维,比使用正则表达式(python中的re库)更容易理解。同时关于requests遇到了中文字符和特殊字符解码的问题。本文都
分类:
编程语言 时间:
2018-01-07 14:08:32
阅读次数:
182
爬虫的操作步骤: 爬虫三步走 爬虫第一步:使用requests获得数据: 1.导入requests 2.使用requests.get获取网页源码 import requests r = requests.get('https://book.douban.com/subject/1084336/com ...
分类:
编程语言 时间:
2018-01-02 16:54:43
阅读次数:
186
#!python3 #multidownloadXkcd.py - Download XKCD comics using multiple threads. import requests import bs4 import os import threading # os.mkdir('xkcd'... ...
分类:
编程语言 时间:
2017-12-21 01:55:31
阅读次数:
210
查看现有环境 conda env list conda info -e 以上两个命令均可以 创建一个python环境 conda create -name xreport python 创建了一个名称为xreport的python环境 conda create -name p27 python=2. ...
分类:
其他好文 时间:
2017-12-16 17:14:52
阅读次数:
116
该程序主要为了抓取人人车卖车信息,包括车系、车型号、购车日期、卖车价格、行驶路程、首付价格等等信息。话不多说直接代码。 车系py文件 卖车各种信息py文件 ...
分类:
编程语言 时间:
2017-12-16 13:15:48
阅读次数:
1387
CSS选择器:BeautifulSoup4 和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。 lxml只会局部遍历,而Beautiful Soup是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存 ...
分类:
编程语言 时间:
2017-12-14 04:14:50
阅读次数:
239
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程。第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便。于是乎就自己照猫画虎,抓了点图片。 科技启迪未来,身为一个程序员,怎么能干这种事呢,还是爬点笑话比较有益于身心健康。 0x ...
分类:
编程语言 时间:
2017-12-09 18:05:44
阅读次数:
271
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html ...
分类:
其他好文 时间:
2017-12-08 14:22:56
阅读次数:
97
一、功能: BeautifulSoup是用来从HTML或XML中提取数据的Python库。 二、导入: from bs4 import BeautifulSoup import bs4 三、编码格式: soup使用Unicode编码 四、对象种类: 有四种类型:Tag,NavigableString ...
分类:
编程语言 时间:
2017-12-07 21:14:06
阅读次数:
148