爬虫代码概述 一.数据存储 csv文件存储,为方便后继使用pandas进行分析,对于爬取的html文件使用BeautifulSoup进行解析 字段选择为 : 书名(titles) 作者/出版社(authors) 评分(nums) 评论数(peoples) 二.网页解析 html中书名(titles) ...
分类:
编程语言 时间:
2018-06-23 17:12:06
阅读次数:
257
#!/usr/bin/python # -*- coding:utf8 -*- import requests import re import os import time # from urllib import json from bs4 import BeautifulSoup from d... ...
分类:
编程语言 时间:
2018-06-22 19:58:00
阅读次数:
393
爬取网页: 用requeusts获取整个网页的HTML信息; 使用Beautiful Soup解析HTML信息 ...
分类:
编程语言 时间:
2018-06-20 21:36:19
阅读次数:
431
hackhttp模板:造福人类 发起get/post/ 发起http原始数据包 漏洞利用:更为快捷放放不安 ...
分类:
Web程序 时间:
2018-06-19 11:51:08
阅读次数:
600
爬取网址 https://findicons.com/pack/2787/beautiful_flat_icons ...
分类:
编程语言 时间:
2018-06-18 19:56:18
阅读次数:
187
一段代码,可以跑出所有文章的url # encoding: utf-8 import requests from bs4 import BeautifulSoup base_url = 'http://blog.jobbol session = requests.session() i=0 for ...
分类:
Web程序 时间:
2018-06-18 17:07:11
阅读次数:
192
>>> import thisThe Zen of Python, by Tim PetersBeautiful is better than ugly.Explicit is better than implicit.Simple is better than complex.Complex is ...
分类:
编程语言 时间:
2018-06-16 23:00:48
阅读次数:
226
pyquery 的使用 跟XPath 和 BeautifulSoup类似的,pyquery也是一个解析库。像Beautiful Soup 一样,初始化pyquery的时候,也需要传入HTML文本来初始化一个pyquery对象。除此以外,还可以直接传入URL,传入文件名等。下面来详细介绍: 这里首先引 ...
分类:
其他好文 时间:
2018-06-15 16:03:21
阅读次数:
160
Beautiful Soup 的使用 Beautiful Soup 就是python的一个HTML或XML的解析库,也是用于从网页中提取数据。废话不多说,直接看基本用法: 这里首先声明了html,它是一个HTML字符串,接着,将它作为第一个参数传递给BeautifulSoup对象,该对象的第二个参数 ...
分类:
其他好文 时间:
2018-06-13 22:21:53
阅读次数:
173
2.爬取数据 1.获取各省的分数线信息 获取各省份的链接: # 获取分数线 def get_score(url): web_data = requests.get(url, headers=header) soup = BeautifulSoup(web_data.content, 'lxml') ...
分类:
编程语言 时间:
2018-06-13 19:35:38
阅读次数:
294