码迷,mamicode.com
首页 >  
搜索关键字:采集    ( 4930个结果
采集数据到HDFS
采集数据到HDFS 安装flume在虚拟机hdp-1中, 打开SFTP-hdp-1窗口,将fllume压缩包导入到虚拟机hdp-1的/root/目录中. 解压flume压缩包到/root/apps/下,命令: tar -xvzf apache-flume-1.6.0-bin.tar.gz -C ap ...
分类:其他好文   时间:2020-06-23 13:03:55    阅读次数:59
第1章 NLP基础
一、NLP的研究任务 机器翻译; 情感分析; 智能问答; 文摘生成; 文本分类:采集各种文章,进行主题分析,从而进行自动分类; 舆论分析; 知识图谱:知识点相互连接而成的语义网络。 二、基本术语 分词; 词性标注:对动词、名词、形容词等进行词性标注。eg:我/r 爱/v 北京/ns 天安门/ns; ...
分类:其他好文   时间:2020-06-23 01:13:11    阅读次数:89
爬虫:新浪微博爬虫的最简单办法
前言:本文主要内容是介绍如何用最简单的办法去采集新浪微博的数据,主要是采集指定微博用户发布的微博以及微博收到的回复等内容,可以通过配置项来调整爬取的微博用户列表以及其他属性。 既然说是最简单的办法,那么我们就得先分析微博爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了 还有就是m站,也就是 ...
分类:其他好文   时间:2020-06-22 23:27:49    阅读次数:219
爬虫:利用python完成百度贴吧数据采集
前言:本文主要是分享下利用python爬取百度指定贴吧的全部帖子以及帖子回复内容,主要是利用python的request库获取网页信息,通过正则等方式解析我们需要的数据并存储到数据库中,并且后续可以用于情感分析、热词分析等分析,这些分析操作可以看我的另一篇文章。 https://www.bizhib ...
分类:编程语言   时间:2020-06-22 23:17:35    阅读次数:62
奈学教育《大数据开发工程师》课程大纲
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目
分类:其他好文   时间:2020-06-22 19:15:45    阅读次数:50
奈学教育《大数据开发工程师》课程大纲
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用 ...
分类:其他好文   时间:2020-06-22 18:50:44    阅读次数:295
【Beats】 Filebeat介绍及使用(十六)
Beats介绍 Beats 是轻量型数据采集器,Beats 是一个免费且开放的平台,集合了多种单一用途数据采集器。它们从成百上千或成千上万台机器和系统向 Logstash 或 Elasticsearch 发送数据。 官网:https://www.elastic.co/cn/beats/ 文档:htt ...
分类:其他好文   时间:2020-06-21 13:39:09    阅读次数:71
消息中间件你知道多少
消息中间件你知道多少?通过调研了解总结如下一、市场上的消息中间件产品有哪些。RabbitMQ Elang语言 高效 吞吐量RockMQ 阿里产品ActiveMQ 传统 实现JMS规范 Kafka 大数据 日志采集 二、消息中间件的优点。削峰 用于高并发场景,进行削峰异步 提供用户操作响应时间,优化用 ...
分类:其他好文   时间:2020-06-20 22:37:52    阅读次数:84
USB hid采集 (HC-USB-T调试工具)
上次买了个wifi模块,带的那个数据线是免驱的USB HID转ttl的。 必须要用原厂配的那个调试工具,感觉不爽,就自己重写了个。 回头可以用在免驱HID读卡器/温度传感器上面。 很方便的。 图:自己写的工具 图:人家写的工具 图:测试效果,一模一样 ...
分类:其他好文   时间:2020-06-20 18:45:13    阅读次数:221
一.多云
成本小,若自建机房:机柜你要准备,服务器要购买,网络设备得采集,还得花人去装,而使用云服务器的话,人力成本和时间都大大节省。 一般公司会考虑在多家公司买云,如我的业务在海外我会考虑aws,是办内政府单位首选阿里云。。。不同的需求对云的选择也不一样,甚至还自建私有云,那这样就涉及一个管理问题,怎样管理 ...
分类:其他好文   时间:2020-06-20 13:21:58    阅读次数:47
4930条   上一页 1 ... 28 29 30 31 32 ... 493 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!