概念普及-云计算 大数据 Hadoop BI

普及一些高大上的概念

一、云计算

云计算的概念最早是 2006 年由 Google 提出的。

1、云计算定义

  • 云计算是一种可以通过网络方便地接入共享资源池,按需获取计算资源的服务模型。
    • 资源包括:网络、服务器、存储、应用、服务等
  • 共享资源池中的资源可以通过较少的管理代价和简单业务交互过程,而快速部署和发布。

2、云计算特点

  • 按需提供服务:
    • 以服务的形式为用户提供应用程序、数据存储、基础设施等资源,根据用户需求自动分配资源。
  • 宽带网络访问:
    • 用户可以利用各种终端设备随时随地通过互联网访问云计算服务
  • 资源池化:
    • 资源以共享资源池的方式统一管理,利用虚拟化技术,将资源分享给不同的用户
  • 高可伸缩性:
    • 服务规模可快速伸缩,以自动适应业务负载的动态变化,避免资源浪费或过载
  • 可量化的服务:
    • 通过监控软件监控用户的使用情况,根据资源的使用情况对服务计费
  • 超大规模的集群
  • 服务比较廉价

3、云计算类型

(按服务类型划分)

  • 基础设施即服务 IaaS(Infrastructure as a Service
    • 位于云计算架构最底层,利用虚拟化技术将硬件设备等基础资源封装成服务供用户使用,典型的虚拟化产品有 VMware vShpereHyper-V 等。
    • 最大的优势是允许用户动态申请或释放节点,按使用量和使用时间计费。
    • 用户相当于在使用裸机,可用它运行 Windows、Linux、Web 容器、DB 服务器等等。
  • 平台即服务 PaaS(Platform as a Service
    • 更进一步对资源进行抽象,提供给用户应用程序的应用环境,用于可以在 Paas 上运行、开发、托管自己的应用程序,不需自己维护服务器,只需上传应用程序即可。
    • PaaS 自身负责资源动态扩容、容错灾备。
  • 软件即服务 SaaS(Software as a Service
    • 针对性更强,将某些特定应用软件功能封装成服务。
    • Google Docs

目前,国内比较出名的云计算提供商有:阿里云、百度云、华为云等。

二、大数据

大数据 big data,相对云计算,大数据显得朴实多了,通俗直白。

云计算对普通人来说确实像云一样飘渺,而大数据则更加实际,是确确实实跟人们的生活息息相关的。

大数据的官方定义,指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。

但是对于多大的数据量能被认为是大数据呢?这个问题并没有明确的答案。因为这个标准跟不同的行业有关系,也会随着技术的不断发展而不断变化。通常是从 TB 级别到 PB 级别甚至达到 ZB 级别。

但是,大数据通常有三个特征:

  • 数据量庞大 Volume
  • 数据种类多 Variety
  • 数据生成和处理的速度快 Velocity

三、Hadoop

Hadoop 是云计算技术的一种实现方式,是云计算 PaaS 层技术的代表,以一种可靠、高效、可扩展的方式存储、管理大数据。

它提供了一个分布式存储和计算的软件框架,可以把它称为一个「大数据管理平台」。

它可以基于分布式存储进行分布式计算,横向扩展能力非常优秀,所以非常适合并能够胜任存储、管理、挖掘大数据的任务。

我们平时所听到的 Storm、Spark、Hive、HBase、Pig、Sqoop … 等等一些高大上的名词,都可以运行在 Hadoop 框架上。

四、BI

  • Business Intelligence 商业智能,是一个统称,指的是用于支持制定业务决策的技能、流程、技术、应用和实践。
  • 通过对当前数据和历史数据进行分析,结合公司业务,辅助决策者制定未来的业务决策,有点类似于数据分析。