Hadoop大数据分析入门系列课程潘老师已经汇总如下:
1.大数据起源与背景 在了解大数据之前,我们先了解两个概念(摩尔定律和新摩尔定律): 摩尔定律是英特尔创始人之 […]
1.Hadoop起源于背景 Hadoop雏形开始于2002年的Apache的Nutch,是一个开源Java 实 […]
如果在你在网上搜Hadoop伪分布式环境搭建的教程,结果可谓五花八门,有的甚至漏洞百出,很难找到一篇非常详细的 […]
一.说明: 1、伪分布式环境是一台虚拟机,自身既是主节点又是从节点,即既是NameNode也是DataNode […]
一、存在的问题 Hadoop在完全分布式下多个虚拟主机协同运行时,我们需要保证所有主机的时间一致,如果服务器时 […]
一、说明 Container日志是hadoop各个container记录的日志,其中会包含错误或失败的重要信息 […]
我们之前在windows系统上通过浏览器访问虚拟主机服务器时,基本都是通过ip进行访问的,而如果是hadoop […]
1.DFS介绍 由于一台机器的存储容量有限,一旦数据量达到足够的级别,就需要将数据存放在多台机器上,这就是分布 […]
1.HDFS 的概念及体系结构 HDFS 是 Hadoop 自带的分布式文件系统,即 Hadoop Distr […]
我们已经知道 HDFS 是分布式存储,可以存放大批量的文件,如果要对文件进行操作,可以通过下面的命令来完成,如 […]
1.基于 Shell 的操作 以下介绍一些我们在 Shell 中操作 HDFS 时经常用到的命令。 HDFS […]
准备 使用Java API操作HDFS中文件主要涉及如下几个类: 1)Configuration类:该类的对象 […]
1.概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题 […]
MapReduce执行过程及运行原理是非常复杂的,理解起来也极其困难,这也是许多同学在学习Hadoop过程中比 […]
1、常用类: 该类的作用是将输入的文件和数据分割成许多小的split文件,并将split的每个行通过LineR […]
Hadoop入门学习最经典的案例就是WordCount单词统计实战案例,这个案例可以帮你迅速理解hadoop中 […]
ETL,是Extract-Load-Transform的缩写,用来描述将数据从来源端经过抽取(extract) […]
自定义对象根据Key和Value分为二种情况 如果需要将自定义的bean放在value中传输,则实现Writa […]
温度排序示例是一个综合性比较强的Hadoop经典案例,除了基础的MapReduce,还有自定义序列化对象、分区 […]
1.YARN什么? YARN:(Yet Another Resources Negotiator): Hado […]
1.基本架构 YARN是Hadoop2.0版本新引入的资源管理系统,直接从MR1演化而来。 将MP1中JobT […]
1、首先我们来看YARN工作流程图: 2、YARN工作流程注意包括以下几个步骤: 1.首先用户向YARN中的R […]
1.FIFO策略: 假设有两个任务,第一个是任务需要大量资源;第二个需要少量资源,但是紧急重要任务,此时第二个 […]
随着直播行业的崛起,大型互联网直播公司每日都会产生海量的直播数据,为了更好地服务主播与用户,提高直播质量与用户 […]
一、ZooKeeper是什么? ZooKeeper由雅虎研究院开发,是Google Chubby的开源实现,后 […]
第1步:环境准备 1)要在Linux上安装Zookeeper,首先我们要准备好系统环境,即先安装好Vmware […]
一、ZooKeeper常用指令 1)启动指令 zkServer.sh start 2)停止指令 zkServe […]
我们可以使用Java API访问ZooKeeper,对ZooKeeper的节点进行一些必要的操作,下面我们一起 […]
什么是NoSQL? NoSQL最常见的解释是“non-relational”, “Not Only SQL”也 […]
我们知道HDFS 是大型数据集分析处理的文件系统,具有高延迟的特点。它更倾向读取整个数据集而不是某条记录,因此 […]
本节内容主要介绍HBase体系架构中的各个组件,来看下每个组件的作用及组件之间是如何相互协作的,另外还介绍HB […]
HBase官网下载 HBase官网下载地址:点击去下载 我们选择2.4.2版本的bin文件下载: HBase安 […]
本节内容我们主要讲解下HBase的常用shell操作。首先我我们要启动hbase: start-hbase.s […]
HBase Shell可以基于后台访问HBase,本节将介绍如何基于Java API远程访问操作HBase,实 […]
在大数据技术架构中,主要包括数据采集、数据存储、数据计算、数据分析、数据可视化等核心步骤。其中数据采集至关重要 […]
一、Flume安装 1)下载 官网下载地址:http://flume.apache.org/download. […]