什么是Sqoop?它的工作机制是什么?
一、Sqoop是什么 Sqoop是一种用于在Hadoop和结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它允许用户将数据从结构化存储器抽取到Hadoop中,用于进一步处理。 例如,可以利用Sqoop从关系型数据库管理系统(如MySQL或者Oracle或者主机)向Hadoop分布式文件系统(HDFS)中导入数据,可以通过MapReduce处理这些……
Flume安装与配置及Flume应用典型实例
一、Flume安装 1)下载 官网下载地址:http://flume.apache.org/download.html 这里我们下载1.9版本的: 2)上传至/usr/flume目录,然后执行如下指令解压: tar -zxvf apache-flume-1.9.0-bin.tar.gz 3)配置Flume的环境变量,在/etc/profile中新增……
Flume日志采集工具入门简介
在大数据技术架构中,主要包括数据采集、数据存储、数据计算、数据分析、数据可视化等核心步骤。其中数据采集至关重要,只有将数据源的数据采集过来,才可以进行计算和分析等工作,但是由于数据源很分散,导致数据的收集变得越发复杂。 目前的数据采集主要分为结构化数据采集和非结构化数据采集,采集的方式也略有区别,在此我们主要介绍非结构化数据采集工具Flume。 一、什么是F……
基于Java API访问操作HBase实例
HBase Shell可以基于后台访问HBase,本节将介绍如何基于Java API远程访问操作HBase,实现创建表、增加数据合查询数据。以下代码实例基于HBase的完全分布式环境来展开的,具体的环境情况可参考: 代码演示 我们新建一个maven项目,在pom.xml中添加如下依赖: <dependency> <groupId&……
HBase的常用shell操作
本节内容我们主要讲解下HBase的常用shell操作。首先我我们要启动hbase: start-hbase.sh 然后连接到hbase服务器: hbase shell 接下来,我们执行一些常用的shell操作: 1)创建表 #语法格式 create '表名称','列族名称1','……
HBase下载、安装与配置(单机版与完全分布式模式)
HBase官网下载 HBase官网下载地址:点击去下载 我们选择2.4.2版本的bin文件下载: HBase安装与配置 具体配置可以参考官网说明文档:官方说明文档 1)我们在/usr目录下新建hbase目录 2)将hbase的tar包通过rz指令上传到hbase目录 3)使用如下指令解压tar包到当前文件夹 tar -zxvf hbase-2.4.2-……
HBase体系架构、组件及执行原理
本节内容主要介绍HBase体系架构中的各个组件,来看下每个组件的作用及组件之间是如何相互协作的,另外还介绍HBase的执行原理。 HBase体系架构及组件 首先我们来看下HBase的体系架构图: 组件: 首先来看一下ZooKeeper组件,该组件主要用于存储HBase的schema和Table元数据,它保障在任何时候,集群中只有一个Master,同时,Zo……
HBase简介及其数据模型详解
我们知道HDFS 是大型数据集分析处理的文件系统,具有高延迟的特点。它更倾向读取整个数据集而不是某条记录,因此当处理低延迟的用户请求时,HBase是更好的选择。它能实现某条数据的快速定位,提供实时读写功能。下面我们详细介绍HBase的核心概念和应用。 HBase 简介 HBase即HadoopDataBase,是一个基于 HDFS和ZooKeeper的列式数……
基于Java API实现HDFS文件的操作
准备 使用Java API操作HDFS中文件主要涉及如下几个类: 1)Configuration类:该类的对象封装了客户端或者服务器的配置。 2)FileSystem 类:该类的对象是一个文件系统对象,可以用该对象的一些方法对文件进行操作。FileSystem fs = FileSystem.get(conf);通过FileSystem的静态方法get获得该……
目录服务X.500——分布式计算系统原理(6)
一、什么是目录服务X.500? 目录服务是一种特殊类型的名字服务。除了根据实体名查找到它的属性(如IP地址) 外,用户可以基于属性描述来查找实体,而不用完整的实体名。在这种情况下,用户可以在诸如“窗户修理”标题下进行查找,用户将获得修理窗户的店铺(实体名)的列表。 X.500目录访问是在国际电信联盟(ITU)主持下,于1988 年首次被批准,19……
DNS域名系统——分布式计算系统原理(5)
一、域名分层 DNS名称空间划分例子:名称空间划分成不重叠的几部分,在DNS中称为区域(zone)。区域是名称空间的一部分,它是由单独的名称服务器实现的。 二、资源记录 域名系统的支撑技术是数据库技术,整个DNS域名空间由DNS数据库表示。在DNS中,数据库的记录表示为资源记录数据库的索引是域名。根据域名可以检索到相应的资源记录,例如给出城名可以查到它的……
名字服务结构——分布式计算系统原理(4)
一、什么是实体? 实体在一个计算机系统中时指范围广泛的事物,包括计算机主机、外围设备、进程、数据库、服务、服务器和用户等。在计算机中称呼实体的方法有很多,包括名字、地址和标识符等。 比如:主机,打印机,磁盘,文件,进程,用户,邮箱,新闻组,网络,页面等。 二、名字与属性 1、名字 实体的名字是一个用户可读的、便于记忆的字符串。例如:名字/etc/passwd……