你正在浏览:电脑问题网 > 硬件知识 > 服务器知识 > Hadoop一体机参考设计的方案设计原则

Hadoop一体机参考设计的方案设计原则

  • 来源:电脑问题网
  • 作者:服务器知识
  • 审核:电脑问题网
  • 时间:2014-07-06 13:41
  • 阅读:

Hadoop一体机参考设计的方案设计原则

Hadoop是一种高度可伸缩的大数据应用方案,能过通过少至几台多至数千台互联的服务器处理几十TB到数百PB的数据。本参考设计实现了单一机柜的Hadoop集群设计,若用户需要多于一个机柜的Hadoop集群,可以通过扩张本设计中的服务器数量及网络带宽轻松实现扩张。

Hadoop一体机参考设计的方案设计原则

Hadoop一体机参考设计的方案设计原则

Hadoop方案

Hadoop一体机参考设计的方案设计原则

Hadoop一体机设计

Hadoop方案的特点

Hadoop是一个低成本和高可扩展性的大数据处理平台。Hadoop提供了一个稳定的共享存储和分析系统,存储由HDFS(分布式数据存储)来实现,数据处理由MapReduce(分布式数据处理)来实现,同时Hadoop又提供了Hbase作为实时数据库及众多的应用工具。Hadoop系统是一个分布式的平台,可由成百上千的服务器所构成,每个服务器上都存储着部分数据并完成部分数据操作。

Hadoop一体机参考设计的方案设计原则

Hadoop集群系统的组成

Hadoop一体机参考设计的方案设计原则

Hadoop服务器角色

HDFS(分布式数据存储):

针对大规模数据的高容错性和高吞吐的分布式文件系统。它可以构建从几台到几千台由常规服务器组成的集群中,并提供高聚合输入输出的文件读写访问。

主要特点:

使用低成本存储和服务器构建高可靠性和容错性系统,数据自动复制 ,可自我修复

支持GB到TB级别大数据文件,提供PB级别的存储容量

为流式数据访问优化,简化“一致性”,适合一次写入、多次读

高聚合带宽,高并发访问

移动“计算”比移动“数据”更便宜 ,提供同节点数据存放和计算能力

Name Node和DataNode

一个HDFS集群是由一个NameNode和多个DataNodes组成。

NameNode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问,是所有HDFS元数据的支配者和管理者。NameNode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。

DataNode一般是一个节点一个,负责管理它所在节点上的存储。DataNode负责处理文件系统客户端的读写请求。

Map Reduce(分布式数据处理):

适用于大数据量处理的分布式框架,可以将一个大数据处理任务分布同步运行在一个服务器集群中。它是为离线数据分析而设计,利用数据并行性进行分布运算,而后汇总结果的计算框架。

基本特点:

将任务分拆、分布、汇总实现在框架逻辑中,开发人员只需实现业务逻辑

分布任务自动失败重试,单个任务意外失败不会造成整个任务推出

和HDFS整合,使计算移到数据所在节点运行

JobTracker是MapReduce框架中最主要的类之一,所有job的执行都由它来调度,而且Hadoop系统中只配置一个JobTracker 或者一个job tracker 加一个backup jobtracker实现MapReduce的HA应用。它们都是由一个master服务JobTracker和多个运行于多个节点的slaver服务 TaskTracker两个类提供的服务调度的。

Hbase(分布式数据库)

Hbase是一个分布式的、按列存储的、多维表结构的实时分布式数据库。它可以提供大数据结构化和非结构化数据的高速读写操作,为高速在线数据服务而设计。主要特点:

支持每秒数万条级别高速并发写入和高并发查询

可扩展,数据自动切分和分布,可动态扩容,无需停机

数据存放在HDFS分布式文件系统之上,不会丢失

灵活的表结构,可动态改变和增加(包括行、列和时间戳)

面向列、可压缩,有效降低磁盘I/O,提高利用率

多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系

网络互联:

Hadoop集群结构由一个两层网络拓扑组成。为了得到Hadoop最大的性能,配置Hadoop很重要,它包括网络拓扑。对于多个机柜的集群,我们需要映射节点到机柜上,通过映射,放置MapReduce任务在节点中时,Hadoop将优先做机柜内传输而不是机柜外传输。HDFS能更智能地放置副本,在性能和适应力上权衡。网络位置(如节点和机柜)可以表示成一棵树,它反映了网络中位置之间的“距离”。名称节点在决定哪里存放块的副本时,会用到网络位置;当一个map任务被分配到一个tasktracker上运行时,jobtracker节点会使用网络位置来确定作为map任务输入最近副本的位置。

千兆与万兆以太网是目前Hadoop应用中最常用的网络技术,在机柜内,使用千兆方式以太网连接各节点,而机柜之间可通过万兆以太网互联。未来,随着万兆以太网成本下降,万兆以太网就会用到机柜级的交换上面,Hadoop本身也可以支持其他的网络的互联技术,如无限网络(Infiniband)适合需要很低的延时的应用需求,但通常以太网能够满足大部分的客户应用。

Hadoop一体机参考设计的方案设计原则

硬件平台选择

Hadoop不需要运行在昂贵且高可靠性的硬件上。它被设计运行在普通双路服务器集群上,并使用大量低成本的SATA硬盘,其性能的IO及数据处理由聚合的性能来实现,通过合理扩展的集群的节点数量或增加硬盘数量就能够获得更好的处理能力或存储性能。同时,Hadoop系统通过软件实现了对于硬件失效的容错,集群中保存的数据或运行的处理任务不会因个别硬件的故障而损失。这样的设计进一步降低了对特殊硬件容错技术的依赖,并降低了部署成本。

针对Hadoop集群的各功能,需要考虑以下的服务器及网络设计:

Hadoop一体机参考设计的方案设计原则

Hadoop 服务器设计需求

Namenode负责协调集群中的数据存储,jobtracker协调数据计算任务,最后的节点类型是secondly namenode,小型集群它可以和Namenode共用一台机器,较大的群集可以采用和Namenode节点相同的硬件,这些服务器角色要求响应速度快、低延时、高可靠性,我们建议客户使用Intel Xeon E5双路平台的服务器来运行Namenode、Secondly nameNode和jobtrackers,48GB以上内存,配有SSD本地存储和企业级RAID10磁盘。

对于一个拥有100个Datanodes的集群,需要处理能力与I/O性能的匹配、大存储容量以及高网络宽带等要求,我们建议使用Intel Xeon E5双路平台的服务器来运行DataNode,32GB 以上内存可以提供足够的扩展空间。

当您的Hadoop集群增长超过20台机器,我们建议配置初始集群,多个机柜,每个机柜顶部有机柜千兆交换机,这些交换机连接万兆以太网或无限网络(Infiniband)。

软件方案选择

操作系统

Hodoop可以灵活支持Windows、Linux及Unix操作系统,但从实际部署来看,Linux操作系统是最常用的选择。其中,Linux系统有诸多发行的版本,我们建议选用企业级的操作系统CentOS6.3x64,以充分发挥硬件平台的应用能力。

Hadoop软件

我们推荐行业用户使用经过测试和验证的正规商业发行版,在本参考设计中,我们使用英特尔Hadoop发行版作为系统软件,在客户生产环境中成功部署运营,让客户确保在Hadoop集群中获得更大的价值。

开发工具

Hadoop开发工具非常丰富,客户可以根据不同的需要来进行选择:

Hive(数据仓库):基于Hadoop的大数据分布式数据仓库引擎。它可以将数据存放在分布式文件系统或分布式数据库中,并使用SQL语言进行海量数据统计、查询和分析操作。

Zookeeper(协作服务):针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。它可以维护系统配置、群组用户和命名等信息。

Pig(数据处理):是一个基于Hadoop的大数据分布式数据分析语言和运行平台。它的构架确保可以将分析任务分布并行运行,以适应海量数据的分析需求。

Mahout(数据挖掘):可扩展的机器学习类库,与Hadoop结合后可以提供分布式数据分析功能。

Flume(日志收集工具):分布式、高可靠的和高可用的日志采集系统,它用来从不同来源的系统中采集、汇总和搬移大容量的日志数据到一个集中式的数据存储中。

Sqoop(关系数据ETL工具):提供高效在Hadoop和结构化数据源之间双向传送数据的连接器组件。

管理工具

Hadoop集群应用较为复杂,企业通常需要依靠企业级别的支持服务来确保高性能、可靠性和可用性。Intel manager for Hadoop 软件管理器(Intel Manager)是一个功能强大且易于使用的管理软件,可以简化Hadoop 集群的设置、管理、安全保护以及故障排除,企业IT人员可以专注于从Hadoop环境获得最大业务价值,而不必担心集群管理的问题。

能耗管理 - DCM 数据中心管理平台介绍

Intel® Data Center Manager, (简称DCM)是一款针对数据中心服务器群组功耗和温度进行监控、管理和优化的软件技术产品。是为了解决数据中心所面临的如下能耗效率挑战而设计的:

许多数据中心已经耗尽供电资源。

冷却系统设计不完善,导致温度热点,降低机柜密度。

为了实现功耗监视功能,需要购买基于IP地址访问的独立的智能插座,他们非常昂贵。

无法获得精确的实际功耗数据,导致规划过度保守,浪费资源。

当前的设计在低负载的时候低效:即使服务器处于空闲状态,也会消耗其最大功耗的50%。

不同OEM支持不同的专有功耗测量和控制协议,这导致很难通过一个解决方案对数据中心内的所有设备进行功耗管理。

DCM可以在不影响服务器系统运行的情况下,以带外方式对服务器的整体功耗进行实时监测与管理,并通过对历史数据进行分析,针对实际环境和服务器运行情况提出合理的节能措施。采用Intel DCM能源控制技术,可以根据数据中心所能提供的能源限制,通过调整CPU运行频率、内存运行频率,让备份服务器处于最低的功耗状态,同时对整个系统实施功耗限制策略。

DCM Console 产品介绍

DCM Console 是一个基于网络图形用户(GUI)界面的服务器能耗管理软件,能够基于 DCM 软件开发工具包(SDK)提供数据中心能耗管理功能。

Hadoop一体机参考设计的方案设计原则

DCM Console的特性及价值

监视

实时监视机柜、机组、机房、用户自定义物理/逻辑组的实际功耗和入口温度数据

基于自定义功耗和温度事件接收报警

为缺少功耗监视的传统服务器提供功耗预算引擎

监测思科Energywise交换机功耗

显示HP、IBM以及Dell等品牌的服务器标签和序列号

支持CISCO机柜式服务器以及UCS系统

指示服务器冷却效果

趋势分析

记录功耗和温度数据,且可以利用过滤器查询趋势数据

历史数据可保存长达1年,以便资源规划

控制

已获专利的智能组策略引擎

可在多个分层级别支持多个并发的有效功耗策略类型

可利用工作负载优先级作为策略指令

允许按照时间点/或星期调度策略(包括功耗上限)

在根据不断变化的服务器负载进行动态调整时,可满足服务器组的功耗上限

Intel的Node Manager 2.0技术,支持内存功耗限制和动态CPU内核分配

无代理

无需在被管节点上安装任何软件代理

易于集成并可共存

利用IP地址范围查找设备

支持高级Web服务描述语言 (WSDL) API

可驻留在独立管理服务器上,也可与ISV共存于同一服务器上

功耗/温度感知,灵活调度——气流通道以及出口温度,建模(需要OEM支持)

出口温度传感器 (需要OEM支持)

可扩展性

可管理多达 10000 个被管节点

安全性

采用包含安全功能的 API

保证与被管节点之间为安全的通信

对所有敏感数据进行加密

英特尔数据中心管理平台的主要功能包括:

功耗监视:基于设备、机柜、行、机房和数据中心等不同层次监视功耗的各项相关指标。

温度监视:实时监视DC温度。

功耗控制:对设备以及分组实施策略,限制数据中心功耗。

设备查找:在网络中查找支持的设备,包括刀片、机柜式服务器、机箱以及部分电源分配单元(即Power Distribution Unit,以下简称PDU)和不间断电源(即Uninterruptible Power Supply,以下简称UPS)。

事件管理:监视并管理分组或设备的事件。

Hadoop一体机参考设计的方案设计原则

参考方案的扩展性

部署的扩展型:

在实际应用中为了数据处理更多、更快,就需要增加服务器集群数量,从一个机柜扩展到多个机柜。在本参考设计的单个机柜部署设计的基础上,能够非常简便地扩展到多个机柜部署的部署。

Hadoop一体机参考设计的方案设计原则

性能的扩展性

受实验设备所限,我们往往不能够对大型部署进行全部署的性能测试。

但是,在我们评估中证实Hadoop集群的性能能够线形地随服务器节点数量的增加而增长,因此能够通过少量或部分服务器的部署测试估测全部署的性能。

以下测试是Intel在实验室中对2台到64台DataNode的部署进行HDFS Scan性能测试的结果:

Hadoop一体机参考设计的方案设计原则

Intel Hadoop HDFS scan性能分析图

图中蓝色的性能曲线公式为:HDFS Scan性能(M/s)=103.23*节点数+206.23

该公式的估算结果与实际测试结果的吻合(相关系数R2〉0.99)。证实能够通过少量节点的测试,对更大规模的集群性能进行预估。

在实现本参考设计的过程中,客户可以通过同样的方法,先对少量节点的测试获得测试数据,然后获得经验性的性能扩展公式,进而对更大规模的集群性能进行预估。

*:测试基于Intel R2308gl4g平台,2 颗XeonE5-2640处理器 , 48GB DDR3内存 , 6块SATA 6GB HDDs (7200rpm), 双千兆网卡Teaming

 

[本文来自电脑问题网-亚洲最大.最全.最实用的电脑问题技术网站,永久网址http://www.pcwenti.com,转载本文务必注明来源。]

热点排行