request模块: 文件乱码: 反爬机制: 动态加载数据爬取 回顾: 正则,xpath,bs4: 正则解析: b64: xpath: 合并条件: 错误分析 ...
分类:
其他好文 时间:
2020-04-10 17:17:30
阅读次数:
73
import hackhttp from bs4 import BeautifulSoup as BS import re def tomcat(raw): url = 'https://www.cnvd.org.cn/flaw/list.htm?flag=true' hh = hackhttp.h ...
分类:
Web程序 时间:
2020-04-10 01:01:27
阅读次数:
382
1爬虫介绍 # 1 本质:模拟发送http请求(requests) 》解析返回数据(re,bs4,lxml,json) 》入库(redis,mysql,mongodb) # 2 app爬虫:本质一模一样 # 3 为什么python做爬虫最好:包多,爬虫框架:scrapy:性能很高的爬虫框架,爬虫界的 ...
分类:
Web程序 时间:
2020-04-10 00:48:11
阅读次数:
114
爬取汽车之家新闻 # 爬取汽车之家 import requests # 向汽车之家发送get请求,获取到页面 ret = requests.get('https://www.autohome.com.cn/news/1/#liststart') # print(ret.text) # bs4解析(可 ...
分类:
其他好文 时间:
2020-04-08 21:00:07
阅读次数:
94
[TOC] 爬虫介绍 爬虫的本质就是模拟发送http请求(requests模块),之后解析返回的数据(re,bs4,lxml,json等模块),最后将数据入库(redis,mysql,mongodb)。 app的爬虫,本质上是一模一样的。 python做爬虫的优势在于:包多,而且有爬虫的框架scra ...
分类:
其他好文 时间:
2020-04-07 23:57:24
阅读次数:
160
```python from bs4 import BeautifulSoup from urllib import request import threading import re import os from lxml import html class SpiderCategory(thr... ...
分类:
编程语言 时间:
2020-04-06 00:13:04
阅读次数:
69
#!/usr/bin/py2 # -*- coding: utf-8 -*- #encoding=utf-8 from bs4 import BeautifulSoup from scrapy.http import Request, FormRequest from spider_test.ite ...
分类:
Web程序 时间:
2020-04-02 22:20:48
阅读次数:
95
import xlrdfrom xlrd import xldate_as_tupleimport jsonimport requestsimport datetimeimport openpyxlimport osimport timefrom bs4 import BeautifulSoupim ...
分类:
编程语言 时间:
2020-04-01 12:50:45
阅读次数:
155
# 聚焦爬虫的设计思路:1.确定url, 发起请求, 获取响应 > 抓包, requests, urllib, aiohttp, scrapy2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery3.数据持久化 --> 文件系统, 数据库 --> MySQL, Mong ...
分类:
其他好文 时间:
2020-03-31 14:48:18
阅读次数:
81
一个简单爬虫案例 from bs4 import BeautifulSoup import os import requests response = requests.get("http://www.90xiaohua.com/") response.encoding = "utf-8" # pr ...
分类:
其他好文 时间:
2020-03-25 10:38:34
阅读次数:
52