初识大数据,了解大数据起源背景及其4V特点

大数据技术 潘老师 3年前 (2021-02-24) 1223 ℃ (0) 扫码查看

1.大数据起源与背景

在了解大数据之前,我们先了解两个概念(摩尔定律和新摩尔定律):

摩尔定律是英特尔创始人之一戈登·摩尔的经验之谈,其核心内容为:集成电路上可以容纳的晶体管数目在大约每经过18个月便会增加一倍。换言之,处理器的性能每隔两年翻一倍。——摘自百度百科

初识大数据,了解大数据起源背景及其4V特点

谷歌公司这样基于搜索引擎的公司,需要将互联网上每天产生的海量数据爬取存储到自己的索引库,提供给用户搜索,就面临着海量数据存储与处理的问题。

单台服务器的性能是有限的,那么处理数据的能力是有限的,而计算机性能的增长远不及数据的增长迅猛,面对每天产生的海量数据,单台服务器根本无能为力,因此必须要使用多台服务器针对海量数据进行协同处理。

因此诞生了Google三驾马车:

1)在2003年发表文章《The Google File System 》 : GFS 解决大批量、海量数据存储问题
2)在2004年发表文章《MapReduce: Simplified Data Processing on Large Clusters》:MapReduce 解决大数据领域的计算问题
3)在2006年发表文章《Bigtable: A Distributed Storage System for Structured Data》:BigTable是分布式,结构化数据的存储系统,它用来存储海量数据。该系统用来满足“大数据量、高吞吐量、快速响应”等不同应用场景下的存储需求。

说明:
谷歌三驾马车分别是:GFS、MapReduce和BigTable。
Hadoop实际上就是谷歌三驾马车的开源实现,Hadoop MapReduce对应Google MapReduce,HBase对应Big Table,HDFS对应GFS。区别是谷歌底层是c++,而hadoop底层是用java。

2.大数据的数据单位

按顺序给出所有单位:

bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(进率2^10)

多大数据才算大数据:

大数据的起始计量单位至少是PB级别。

处理过PB级别的大数据是指:搭建的处理集群每天处理PB数据量(单次计算任务的数据量在PB级别)

3.大数据概念

大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。——摘自维基百科
简单理解:无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合)

4.大数据特点

业界通常使用4V来描述:

海量性(Volume):

第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),而我们生活中每天都会产生大量的数据。

多样性(Variety):

第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

价值性(Value):

第三个特征是数据价值密度相对较低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如行车记录仪记录的大部分视频是无用的,只有当出现事故时才会体现出价值。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通 过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

高速性(Velocity):

第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

5.大数据的价值

在总数据量相同的情况下,与个别分析独立的小型数据集(Data Set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
初识大数据,了解大数据起源背景及其4V特点

6.大数据技术框架

大数据技术框架主要包含6个部分,分别是数据收集、数据存储、资源管理、计算框架、数据分析和数据展示,每部分包括的具体技术如图所示:
初识大数据,了解大数据起源背景及其4V特点

7.大数据计算模式

初识大数据,了解大数据起源背景及其4V特点

8.大数据与云计算、物联网之间的关系

大数据、云计算和物联网三者息息相关,是互相关联、相互作用的。物联网是大数据的来源(设备数据),大数据技术为物联网数据的分析提供了强有力的支撑;物联网还为云计算提供了广阔的应用空间,而云计算为物联网提供了海量数据存储能力;云计算还为大数据提供了技术基础,而大数据能为云计算所产生的运营数据提供分析和决策依据。三者的关系如图所示:
初识大数据,了解大数据起源背景及其4V特点


版权声明:本站文章,如无说明,均为本站原创,转载请注明文章来源。如有侵权,请联系博主删除。
本文链接:https://www.panziye.com/java/bigdata/1907.html
喜欢 (1)
请潘老师喝杯Coffee吧!】
分享 (0)
用户头像
发表我的评论
取消评论
表情 贴图 签到 代码

Hi,您需要填写昵称和邮箱!

  • 昵称【必填】
  • 邮箱【必填】
  • 网址【可选】