说明:无意滋生事端,仅学习分享,如有侵权,立即删除 用到的模块:json、lxml的etree、time.ctime、requests 源码如下: import requests import time from lxml import etree import json class BiLiSpi ...
分类:
其他好文 时间:
2020-04-24 21:28:50
阅读次数:
145
import requests #请求的作用,简单理解就是向网页请求url链接,进而爬取它 from bs4 import BeautifulSoup #这个BeautifulSoup库是对网页的一个排版美化的作用,给原始网页html换行加缩近使其看着更舒适,学过前端的都很容易理解 import b ...
分类:
其他好文 时间:
2020-04-24 20:08:57
阅读次数:
59
读取配置文件连接mysql并查询 示例代码: SqlMonitoring.py import json import requests import mysql.connector import datetime from configparser import ConfigParser impor ...
分类:
数据库 时间:
2020-04-24 18:37:21
阅读次数:
82
这个解析库对于学过前端的人非常友好,因为其有强大的CSS选择器,也可以增加或删除class,方便的提取数据或者属性。 初始化 字符串初始化 这个就是传入html代码的字符串格式,简单的requests库可以获得该参数。 以知乎 新闻页为例 r.text返回的是一个经过解码后的字符串,是unicode ...
分类:
编程语言 时间:
2020-04-24 01:01:23
阅读次数:
81
需要把字幕名改成i.txt 有有道和谷歌 代码: #Author:Chenglong Qian #Copyright :Chenglong Qian import json import requests import re import os import sys from GoogleFreeT ...
分类:
其他好文 时间:
2020-04-23 22:58:44
阅读次数:
365
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称:爬取微博热搜top50 2.主题式网络爬虫的内容与数据特征分析:排名 关键词 点击量 3.主题式网络爬虫设计方案概述: 先分析页面 对比源代码找出规律,然后对网页进行爬取,再对爬取的数据进行分析和可视化。 二、主题页面的结构特征分析(15 ...
分类:
其他好文 时间:
2020-04-23 21:18:18
阅读次数:
74
添加日志 添加日志同样是在Common目录下,创建一个存放日志的目录Logs和日志类MyLogger,实现的方式并不复杂,不再赘述,只是添加下源码 修改测试请求类TestMyRequest,加入日志并执行,可以看到一些效果 生成测试报告 在项目目录下新建一个存放报告的目录HTMLReposts,再创 ...
分类:
其他好文 时间:
2020-04-23 19:30:10
阅读次数:
67
今天学会了爬虫,昨天只能得到一行一列,今天可以得到所有分页的内容 遇到的困难:今天想做一个轮播图,还没研究明白 import bs4 import pymysql import requests from bs4 import BeautifulSoup import pandas as pd de ...
分类:
其他好文 时间:
2020-04-23 19:15:36
阅读次数:
71
实现测试请求类的两种方式 在TestCases目录下创建测试请求类TestMyRequest,然后获取列表[字典]形式的测试数据,最后使用for循环遍历每一组测试数据 使用unittest运行后,可以发现多条测试用例被合并成了一条测试用例,这显然是不符合我们期望的,我们期望Excel中的每一行的数据 ...
分类:
其他好文 时间:
2020-04-23 18:43:41
阅读次数:
65
使用selenium实现谷歌以图搜图 实现思路 原理非常简单,就是利用selenium去操作浏览器,获取到想要的链接,然后进行图片的下载,和一般的爬虫无异。 用到的技术:multiprocessing,selenium,xpath,requests 以下按照代码执行的顺序进行讲解。 首先导入需要的包 ...
分类:
其他好文 时间:
2020-04-23 16:18:35
阅读次数:
75