搜索关键字：生日爬虫，搜索到12567个结果！码迷,mamicode.com！

爬虫复习

不想误导，若有错误，希望各位不吝指教！！代理：proxies参数格式： 1 proxies = { 2 "http": "http://12.34.56.79:9527", 3 "https": "http://12.34.56.79:9527", 4 } 私密代理： 1 # 如果代理需要使用H ...

分类：其他好文时间：2020-06-11 10:28:55 阅读次数：52

第一阶段冲刺4

今天终于实现了爬虫，爬取到了一定的信息代码： # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import bs4 from selenium import webdriver from time impor ...

分类：其他好文时间：2020-06-11 01:05:51 阅读次数：116

第一阶段冲刺2

今天还是学习python爬取，今天电脑的sdk环境还有python环境出了点问题，在查找资料仍无法解决之后，删除重新配置了一遍，利用hello world测试了python。然后上网找了爬虫的代码进行尝试，但是结果不尽如人意，爬出来很多垃圾数据。明天准备找点视频资料，认认真真的学一学爬虫，不在是找现 ...

分类：其他好文时间：2020-06-11 00:43:25 阅读次数：56

爬取诗词名句网数据并做简单数据分析

爬取诗词总量为二十九万两千六百零二条数据一、爬虫编写目标网站：诗词名句网环境 window10； python3.7； scrapy框架； mysql数据库; 数据库设计根据要爬取的字段定义，爬取内容为诗词链接，简介，标题，作者，朝代，内容，注释，作者发表的文章数量，图片url 如图 1.创 ...

分类：其他好文时间：2020-06-10 23:07:58 阅读次数：123

增量式爬虫

增量式爬虫概念：监测网站数据更新的情况。核心：去重！！！主要有两种情况：深度爬取类型深度爬取类型的网站中需要对详情页的url进行记录和检测记录:将爬取过的详情页的url进行记录保存 url存储到redis的set中检测：如果对某一个详情页的url发起请求之前先要取记录表中进行查看，该u ...

分类：其他好文时间：2020-06-10 20:50:20 阅读次数：75

Python-爬虫-懒得写的部分

requests #!/usr/bin/env python3 # -*- coding: utf-8 -*- import requests import re url = "" hd = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x6 ...

分类：编程语言时间：2020-06-10 11:21:25 阅读次数：116

自动祝福（定时发送消息）

有个同学找我帮忙：明天是她朋友的生日，但她没时间发送祝福，问我能不能弄个自动发送。我想，QQ并没有内置的定时发送功能，紧接着又想起了QQ刷屏助手（见我以前的博文）便用Python实现了她提出的需求。 ...

分类：其他好文时间：2020-06-09 23:33:57 阅读次数：61

数据清洗要点

缺失值清洗： 1. 确定缺失值范围：根据缺失值范围来选择下一步操作； 2. 去除不需要的字段：直接删除该字段数据； 3. 填充：根据经验、建模预测等填充缺失值； 4. 重新获取：若信息很重要，确实率很高，可重新获取；格式内容清洗 1. 时间、日期等，统一其格式； 2. 内容中不该存在的字符：如空格 ...

分类：其他好文时间：2020-06-09 19:02:51 阅读次数：82

异步高性能爬虫

异步爬虫异步的由来在我们爬取网站时，通常会有阻塞操作，比如：请求页面，IO等，如果说爬取的网站数量不是很多，对于阻塞的时间就不会有太大的感官性，那如果数量成百上千，甚至上万呢？所以需要一种方法来解决阻塞的问题，也就是采用异步的方式异步的实现方式：方式1：多线程、多进程（）优点：缺点： ...

分类：其他好文时间：2020-06-09 18:44:02 阅读次数：87

scrapy中间件和selenium在scrapy中的使用

scrapy中间件 scrapy中间有两种：爬虫中间件，下载中间件爬虫中间件：处于引擎和爬虫spider之间下载中间件：处于引擎和下载器之间主要对下载中间件进行处理下载中间件作用：批量拦截请求和响应拦截请求 UA伪装：将所有的请求尽可能多的设定成不同的请求载体身份标识 request.h ...

分类：其他好文时间：2020-06-09 18:34:48 阅读次数：89

共12567条上一页 1 ... 52 53 54 55 56 ... 1257 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)