一段代码,可以跑出所有文章的url # encoding: utf-8 import requests from bs4 import BeautifulSoup base_url = 'http://blog.jobbol session = requests.session() i=0 for ...
分类:
Web程序 时间:
2018-06-18 17:07:11
阅读次数:
192
强大又灵活的网页解析库,如果觉得正则表达式写起来太麻烦,而BeautifulSoup语法太难记,但是熟悉jQuery的语法,那么PyQuery就是一个绝佳选择。 安装:pip3 install pyquery 初始化 字符串初始化 URL初始化 这种是传入一个url,会自动请求这个url,把源代码给 ...
分类:
其他好文 时间:
2018-06-16 16:16:01
阅读次数:
136
本文是通过用爬虫示例来说明并发相关的多线程、多进程、协程之间的执行效率对比。 假设我们现在要在网上下载图片,一个简单的方法是用 requests+BeautifulSoup。注:本文所有例子都使用python3.5) 单线程 示例 1:get_photos.py 示例1进行的是顺序下载,下载30张图 ...
分类:
编程语言 时间:
2018-06-16 16:15:11
阅读次数:
312
1.HTMLParser一般这么用: 2.BeautifulSoup一般这样: 3.HTMLParser遇到div嵌套,handle_endtag里关闭div开关会提前关闭,试了很久目前没想出解决方案。 3.BeautifulSoup的find('div', class_='test')是find_ ...
分类:
Web程序 时间:
2018-06-15 23:34:06
阅读次数:
390
很久之前,我看到一个问题,大概是: 他爬了一段html,他获取下了所需的部分(img标签部分),但是不想保留img标签的某些属性, 比如 怎么将img标签里边的 alt属性,width属性, 给去除掉啊 我是很懒的,能用工具的,就不自己写,他原意是使用re模块来处理。 但我还是想利用Beautifu... ...
分类:
编程语言 时间:
2018-06-15 20:05:43
阅读次数:
3116
pyquery 的使用 跟XPath 和 BeautifulSoup类似的,pyquery也是一个解析库。像Beautiful Soup 一样,初始化pyquery的时候,也需要传入HTML文本来初始化一个pyquery对象。除此以外,还可以直接传入URL,传入文件名等。下面来详细介绍: 这里首先引 ...
分类:
其他好文 时间:
2018-06-15 16:03:21
阅读次数:
160
requests,Python HTTP 请求库,相当于 Android 的 Retrofit,它的功能包括 Keep-Alive 和连接池、Cookie 持久化、内容自动解压、HTTP 代理、SSL 认证、连接超时、Session 等很多特性,同时兼容 Python2 和 Python3。 第三方 ...
分类:
编程语言 时间:
2018-06-14 14:53:08
阅读次数:
210
晚上回来学学爬虫,记住,很多网站一般新手是爬不出来的,来个简单的,往下看:import urllib.requestfrom bs4 import BeautifulSoup #我用的pycharm需要手动导入这个包的import lxml #同上def getHtml(url,headers): ...
分类:
编程语言 时间:
2018-06-13 23:37:35
阅读次数:
258
Beautiful Soup 的使用 Beautiful Soup 就是python的一个HTML或XML的解析库,也是用于从网页中提取数据。废话不多说,直接看基本用法: 这里首先声明了html,它是一个HTML字符串,接着,将它作为第一个参数传递给BeautifulSoup对象,该对象的第二个参数 ...
分类:
其他好文 时间:
2018-06-13 22:21:53
阅读次数:
173
2.爬取数据 1.获取各省的分数线信息 获取各省份的链接: # 获取分数线 def get_score(url): web_data = requests.get(url, headers=header) soup = BeautifulSoup(web_data.content, 'lxml') ...
分类:
编程语言 时间:
2018-06-13 19:35:38
阅读次数:
294