一篇文章带你了解《python爬虫》 1. 什么是网络爬虫: 1. 通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。 2. 专业介绍:百度百科。 2. 进入主题: 2.1 python urllib: # urllib_01.py ...
分类:
编程语言 时间:
2020-01-01 20:28:31
阅读次数:
78
``` const mongoose = require('mongoose') mongoose.connect('mongodb://164.red/test', { useUnifiedTopology: true }) .then(res => console.log('数据库连接成功'))... ...
分类:
数据库 时间:
2020-01-01 18:58:07
阅读次数:
109
``` const mongoose = require('mongoose') mongoose.connect('mongodb://164.red/test', { useUnifiedTopology: true }) .then(res => console.log('数据库连接成功'))... ...
分类:
数据库 时间:
2020-01-01 18:32:57
阅读次数:
86
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Sou ...
分类:
编程语言 时间:
2020-01-01 18:29:04
阅读次数:
90
何谓爬虫 所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。 爬虫三要素 抓取 分析 存储 基础的抓取操作 1、urllib在Python2.x中我们可以通过urllib 或者urllib2 进行 ...
分类:
编程语言 时间:
2020-01-01 17:16:50
阅读次数:
130
``` const mongoose = require('mongoose') // 连接数据库 mongoose.connect('mongodb://164.red:27017/test', { useUnifiedTopology: true }) .then( res => console... ...
分类:
数据库 时间:
2020-01-01 17:04:15
阅读次数:
82
#!/usr/bin/python # -*- coding: UTF-8 -*- '''@auther :mr.qin @IDE:pycharm''' import pymongo from tool.Common import * import sys class Operation_Mongo ...
分类:
数据库 时间:
2020-01-01 16:46:49
阅读次数:
170
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。 ...
分类:
编程语言 时间:
2020-01-01 16:36:12
阅读次数:
108
安装 1.下载安装包 wget http://fastdl.mongodb.org/linux/mongodb-linux-i686-1.8.2.tgz 下载完成后解压缩压缩包 tar zxf mongodb-linux-i686-1.8.2.tgz 2.安装准备 将MongoDB中移动到在/ us ...
分类:
数据库 时间:
2020-01-01 10:24:39
阅读次数:
83
ElasticSearch之介绍 一 Elasticsearch产生背景 1.1 大规模数据如何检索 如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、oracle、mongodb、hbase…)2)如何解决单点故障;( ...
分类:
其他好文 时间:
2019-12-31 21:31:10
阅读次数:
88