标签:Hadoop教程

Hadoop实战案例—直播数据统计与分析

随着直播行业的崛起,大型互联网直播公司每日都会产生海量的直播数据,为了更好地服务主播与用户,提高直播质量与用户粘性,往往会对大量的数据进行分析与统计,从中挖掘商业价值,我们将通过一个实战案例,来使用Hadoop技术来实现对直播数据的统计与分析。一、直播数据准备我这里是简化过后的数据格式,大致如下:{"id":"1580……

Hadoop经典综合性案例—温度排序示例

温度排序示例是一个综合性比较强的Hadoop经典案例,除了基础的MapReduce,还有自定义序列化对象、分区、分组、自定义排序等相关知识,对于刚入门的同学来说,理解起来可能会稍有困难。一、案例任务说明假设有多年气温数据,如下:1949-10-01 14:21:02 341949-10-02 15:01:01 361949-10……

Hadoop中常用类型及如何自定义序列化类型

我们在写MapReduce代码时,经常会用到一些类和数据类型,有些时候为了满足我们的业务需求,还需要自定义序列化的数据类型,下面我们一起来了解下,一些常用类和数据类型,以及我们应该如何去自定义序列化类型。一、常用类说明1、InputFormat类:该类的作用是将输入的文件和数据分割成许多小的split文件,并将split的每个行通过LineRecorde……

初步认识ETL,实现数据清洗入门案例

ETL,是Extract-Load-Transform的缩写,用来描述将数据从来源端经过抽取(extract)、(清洗)转换(transform)、加载(load)至目的端的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业管理层的决策提供分析依据,ETL是BI(商业智能)项目重要的一个环节。下面潘老师通过一个简单的数据清洗案例,来带大家初……

MapReduce执行过程及运行原理详解

MapReduce执行过程及运行原理是非常复杂的,理解起来也极其困难,这也是许多同学在学习Hadoop过程中比较困惑的地方,今天潘老师来带大家从头到尾详细地梳理一下MapReduce执行的4个阶段,分别为Split阶段—> Map阶段 —> Shuffle阶段 —> Reduce阶段。在正式进入详解之前,我们先通过一个简……

Hadoop3.x伪分布式环境搭建图文详解教程,让你快速入门大数据开发

如果在你在网上搜Hadoop伪分布式环境搭建的教程,结果可谓五花八门,有的甚至漏洞百出,很难找到一篇非常详细的文章,能把它的搭建全过程讲的清清楚楚,今天潘老师给大家整理了一套完整详尽的图文教程,并且亲自测试保证能正常运行hadoop,只要你跟着步骤耐心加细心地一步步操作,肯定不会出问题,而且能让你快速入门大数据开发,体会大数据的魅力。第1步:安装Vmwa……