搜索关键字：抓取数据，搜索到386个结果！码迷,mamicode.com！

爬虫初入

什么是爬虫？爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。爬虫的分类通用爬虫通用爬虫是搜索引擎“抓取系统”的重要组成部分，主要目的是将互联网上的内容下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份，再对这些内容进行处理，最后提 ...

分类：其他好文时间：2018-11-15 12:08:36 阅读次数：92

初识爬虫

什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据爬 ...

分类：其他好文时间：2018-11-13 21:43:41 阅读次数：167

北斗剑阵, 爬虫IP破封不可阻挡

“人在江湖飘，哪能不挨刀。”话糙理不糙，在我们酣畅淋漓地使用爬虫抓取数据为我们所用的时候，却也能难免遇到强敌，IP遭到封锁，爬虫被反。那么万一不行，IP被封了，有什么方法来解呢？当然有，还很多。方法1.之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。经验如下：IP必须有，可以直接使用成熟的代理IP服务商，类似像太阳HTTP代理这种。好处：1.程序逻辑变化小，只需要代理功能。

分类：其他好文时间：2018-11-12 19:51:28 阅读次数：144

前端通过Nginx反向代理解决跨域问题

本文探讨了前端如何通过Nginx反向代理的方式解决跨域问题。跨域再次重申：跨域是浏览器行为，不是服务器行为。实际上，请求已经到达服务器了，只不过在回来的时候被浏览器限制了。就像Python他可以进行抓取数据一样，不经过浏览器而发起请求是可以得到数据，想到通过Nginx的反向代理来解决跨域问题 ...

分类：其他好文时间：2018-11-12 14:51:17 阅读次数：172

Requests库抓取数据

安装requests库 pip install requests 1.使用GET方式抓取数据： 2.使用POST方式抓取数据网址：有道翻译：http://fanyi.youdao.com/ 按F12 进入开发者模式，单击Network,此时内容为空，如图：输入‘’我爱中国‘’，翻译就会出现：单 ...

分类：其他好文时间：2018-10-10 01:03:27 阅读次数：254

AJAX（七）jsonp实战--天气预报

一、案例本次要做的案例的是使用jsonp制作一个查询天气情况的网页，我会从如何抓取数据接口，到一步一步完成这个案例来详细讲解。这个页面样式非常简单，截图如下。用户需要先选择一个城市，然后点击查看天气，那么最近5天的天气数据，就会展示到下面。二、数据从何而来当然我们不可能自己建气象站，我们只有 ...

分类：Web程序时间：2018-10-06 23:10:05 阅读次数：249

爬虫前面

什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据爬 ...

分类：其他好文时间：2018-10-04 21:33:04 阅读次数：157

爬虫系列之第2章-BS&Xpath模块

一、BeautifulSoup BeautifulSoup简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档 ...

分类：其他好文时间：2018-09-30 12:44:43 阅读次数：241

爬虫基础

一．爬虫 1．概念：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。 2．哪些语言可以实现爬虫：（1）Php：对多线程和多进程支持的不好（2）Java：代码臃肿，重构成本较大（3）C/c++：是一个非常不明智的选择，是一个很好装13的选择（4）Python：没有！！！代码优雅 ...

分类：其他好文时间：2018-09-26 00:08:56 阅读次数：196

把python爬出来的数据，用pymysql插入数据库中

怎么说呢，这个虽然是装逼的产物，但是还是有一定实用价值的。先说说我看到这只鸡腿的时候，是怎么吃的：整体内容可以先分为三部分，抓取数据，整理数据，插入到表。抓取数据：拿到网址后，进去看了一下需要的数据都在什么位置，结构了解清楚后就可以准备准备开始把他撸出来了。想要数据当然要先发个请求咯：请 ...

分类：数据库时间：2018-09-18 16:04:20 阅读次数：217