您当前的位置:>  产品中心GloProc云处理

产品介绍

详细介绍

    DataMagic大数据一体机是亚博大数据自主研发的大数据处理平台,采用英特尔E5家族系列CPU及英特尔服务器组件,具有超高性价比、超高处理性能、超高可靠性等特性,提供千亿纪录级别的海量数据实时入库、实时检索等功能。

     DataMagic大数据一体机是一种处理海量数据的高效分布式软硬件集合的云处理平台,该平台可以从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量信息进 行快捷、高效的处理。平台支持100GBps以上量级的数据流实时索引,秒级响应客户请求,秒级完成数据处理、查询和分析工作。平台可以对入口数据进行实 时索引,对数据进行分析、清理、分割,并将其存储在云存储系统上,不仅在入库和检索时具有非常高的性能优势,还可以支持数据深度挖掘和商业智能分析等业 务。




系统架构

    GloProc云处理平台是搭建在云存储系统上,对业务层直接提供对外开发接口和数据传输接口的分布式数据处理平台。GloProc云处理平台是一种处理海量 数据的并行编程模型和计算框架,用于对大规模数据集的并行计算。



系统架构图

     云存储层包括公司自主研发的云储存系统gloStor和apache开源云储存系统HDFS;而在数据管理层中,包含数据立方、Hbase;数据处理层包含 JobKeeper和MapReduce;最后的监控协调层则包括zookeeper和Chukwa来实现对整个系统的实时监控和数据管理。

    GloProc云计算平台通过把对数据集的大规模操作分发给网络上的每个节点实现数据处理,每个节点会周期性的把完成的工作和状态的更新报告回来。随着节点的增 多,GloProc云计算平台的处理能力将成倍数增长。GloProc支持100GBps以上量级的数据流实时索引,1s内响应客户请求,秒级完成数 据处理、查询和分析工作。



任务监控器(JobKeeper)

    JobKeeper 调度平台是建立于虚拟化资源层之上,统一调度,统一配置的管理平台,用于对集群中任务实时的处理调度,实时结果集的反馈,集群的负载均衡,失败调度,集中 管理,集中配置的平台。用来保证整个集群的超低人员干预。同时,提供完善的集群伸缩机制为整个服务提供更高的可靠性。


JobKeeper云调度技术架构图


应用层是一组用于管理和结果反馈的显示组件,用于显示任务的处理情况以及集群中机器的活动情况,同时其也是一个上层应用和底层服务的对接平台,是整个系统面向用户和开发人员的基础承载。


业务层是对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。


数据处理层是独立的数据处理程序,是对不同需求数据的统一处理方案,它的运行与监控的工作将由JobKeeper调度平台进行统一的配置管理。


存储层是用来存储数据存储层的处理结果集或者其它中间结果集的单元。


虚拟化资源层是将实体的机器进行虚拟化,形成更大范围的服务集群。


    JobKeeper 调度平台是由一组管理节点(Master Node)和一组处理节点(Task Node)组成,管理节点组是一组基于Webserver的RPC(RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务 器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用 信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,客户端调用进程接收答复信息,获得进程结果,然后调用执行继续进 行。)服务器,负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存,对应的信息镜像存储在基于gloStor或者NFS服务的存储系统上,保证每 个管理节点中的镜像信息的实时同步。同时架设在管理节点上的ZooKeeper服务(ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服 务,包含一个简单的原语集。分布式应用可以使用它来实现诸如:统一命名服务、配置管理、分布式锁服务、集群管理等功能。)用于对整个管理节点组进行统一的 配置化管理。处理节点组通过RPC的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。(注:这 里的程序,可以是任何语言任何形式的独立程序,但是必须提供执行脚本,和运行参数选项)处理节点组会在一个设定的心跳间隔内主动的和管理节点组联系一次, 报告节点存活状态。如果在若干个心跳间隔后管理节点组仍然没有获取到处理节点心跳报告,那么该处理节点将会被踢出处理节点组,同时该节点处理的所有处理任 务也会被重新调度。随着集群处理数据量的不断增大,处理节点组提供了简单高效的自动化部署方案,当新机器加入处理集群后,会主动的与管理节点组同步心跳信 息,从同一配置服务器ZooKeeper上获取相关配置信息,通过WebServer服务获取任务列表,开始执行数据处理工作。


    JobKeeper 调度平台提供了一套基于Web的管理化界面,可以实时的观察各个处理节点的任务运行状态,以及任务列表的分配情况,机器的负载情况等。用户在管理系统界面 上可以完成所有的工作,如新任务的添加,任务的手动调度以及集群日志的查看与分析等。


JobKeeper任务分发流程图


     任务处理节点和管理节点之间维护一个心跳时间,实时向管理节点汇报任务处理信息,同时,任务处理节点在每个心跳时间内向管理节点获取该处理的任务列表,并 和本机正在处理的任务列表进行比对,完成相关的任务调度工作。若一个处理节点在多个心跳时间范围内仍然没有主动的和管理节点相互联系,那么管理节点将会根 据各机器的负载情况,将失去心跳连接的处理节点上的任务进行任务的重新分配和执行。



MapReduce可靠性设计

     本方案通过使用ZooKeeper的选举机制解决MapReduce的单点故障,当JobTracker节点宕机时,能够在一台备用的 JobTracker节点上启动JobTracker进程,并使用虚拟IP机制将虚拟IP指向备用JobTracker节点。在JobTracker进程 启动后,ZooKeeper将未完成的MapReduce作业提交给备用JobTracker节点重新执行。





DataMagic

    亚博以B+树的结构建立了字段的索引,每个B+树结构的字段索引相当于一个数据平面,这样一个全局数据表与其多个重要字段的索引就组成了一个类似于立方体的数据组织结构,亚博称之为“DataMagic”。




DataMagic

     DataMagic是一种用于数据分析与索引的技术架构。它是针对大数据(big data)的处理利器,可以对元数据进行任意多关键字实时索引。通过DataMagic对元数据进行分析之后,可以大大加快数据的查询和检索效率。

    DataMagic是凌驾于数据存储层和数据库系统之上的,通过DataMagic解析后,可以大大增加数据查询和检索等业务,可以让系统平台具备数据实时入库、实时查询、查询结果实时传输等优势。

产品特性


使用DataMagic大数据一体机解决方案,应用平台能够支撑千亿级纪录管理、PB级数据存储和秒级数据查询能力,大幅提升客户体验。


英特尔Xeon E5家族系列


最新的英特尔® 至强® 处理器E5-1600/2600 产品家族采用全新的架构,将性能提升至一个新的高度,其性能比上一代产品提升多至80%,而且具备更出色的能源效率。最重要的是,这些处理器还提供了许多高级技术,以便帮助企业解决当前日益动态化的计算环境中的存储、网络和安全性挑战。


优秀的高温承受能力及能耗管理


随着云计算的普及和移动数据的爆炸性增长,当今数据中心消耗了全球约1.5% 的电能,年度成本高达260 亿美元。从单个晶体管层面到处理器、服务器平台、数据中心和电网,英特尔提供了一整套技术来应对这一能源挑战。英特尔E-5 家族系列CPU及英特尔服务器组件,在整个平台中起到了提高数据处理的性能、高温运行、降耗等重要作用。

超高实时性


应用平台在高效率分布式数据库软件-数据立方的支撑下,可以实时完成数据处理和分析工作,如数据处理、数据查询和统计分析等。数据处理不会出现数据堆积现象,各类分析和查询工作基本都在秒级完成,具有前所未有的高效性。


超高可靠性


DataMagic大数据一体机具有超高可靠性,任意节点宕机,系统不停止服务;任意硬盘、网卡等部件损坏,不影响系统服务。系统能够自动容错,将数据分散在各个节点上,不会出现丢失数据的现象。任务处理过程中,当节点宕机,系统自动切换并保留现有进度,保障任务继续执行下去。

可伸缩性


在不停止服务的情况下,增加处理节点,平台的处理能力自动增加;减少处理节点,平台的处理能力自动缩减。这样,可以做到与资源池的无缝对接,根据计算和存储任务动态地申请或释放资源,最大限度地提高资源利用率。


高性价比


采用X86架构超高性价比的英特尔E5家族CPU及英特尔服务器组件构建云计算平台,用软件容错替代硬件容错,大大节省成本。在目标性能和可靠性条件下,可比传统的小型机加商用数据库方案节省10倍左右的成本。

全业务支持


采用NoSQL+关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,可支撑各种类型的业务。在支撑查询、统计、分析业务的同时,还可支撑深度数据挖掘和商业智能分析等业务。



DataMagic与Hadoop HBase性能对比

    将DataMagic与HBase在相同硬件配置、网络环境下,进行性能对比测试。测试内容为:产品可靠性、单客户端数据入库速率、多客户端数据入库速率、数据查询性能。


    硬件配置


序号
设备名称
数量
CPU
内存
硬盘
说明
1 主控服务器 2 Intel(R) Xeon(R) CPU E5606 @ 2.13GHz 32G 2*3T  
2 处理节点 7 Intel(R) Xeon(R) CPU E5606 @ 2.13GHz 32G 2*3T  

    网络配置


序号
设备名称
设备型号
数量
1 千兆交换机 SD2008T 1
2 千兆连接口 10/100/1000BASE-T口 24

    软件配置


软件名称
软件版本
数量(套)
说明
Datacube 1.0版本 1  
HBase HBase-0.94.7 1  

    HBase测试是采用YCSB benchmark测试的,HBase入库数据量:5000万条、1亿条、5亿条、10亿条、20亿、40亿、80亿、100亿条;HBase数据查询是采用测试代码实现的,本次HBase查询是以行键+列族+列名进行数据查询的。


    DataMagic数据入库分别将HBase中的5000万、1亿条、5亿条、10亿条、20亿、40亿、80亿、100亿条数据,以文本格式导入到DataMagichdfs中的。DataMagic中的查询条件与HBase中的查询条件相同。


DataMagic与HBase数据入库性能对比

点击查看大图


DataMagic与HBase数据查询性能对比

点击查看大图

    测试结果表明:


    1、数据入库方面:DataMagic与HBase在小数据量时两者的入库性能相差不明显,在100亿数据量入库时,DataMagic入库性能是HBase的80倍。


    2、数据查询方面:DataMagic与HBase在5000万、1亿条数据量时,二者的查询性能相当,随着数据量的增大,在100亿数据量时,DataMagic查询性能是HBase的近90倍。




DataMagic与某国际知名云计算数据库性能对比


    在相同的硬件、网络和数据环境下,进行了DataMagic与国际某知名分布式数据库产品的性能对比测试。本次测试主要从数据入库、数据查询方面进行对比测试,测试数据为同一份原始数据(160M,每行记录共30个字段)所生成的大数据文件。


    测试硬件环境如下:

序号
设备名称
数量
CPU
内存
硬盘
说明
1 主控服务器 1 IntelE5-2620 2.0G/15M/6C 8G 2*3T  
2 处理节点 15 IntelE5-2620 2.0G/15M/6C 8G 2*3T  
3 客户端 1 IntelE5-2620 2.0G/15M/6C 8G 2*3T  

    网络环境:

序号
设备名称
设备型号
数量
1 千兆交换机 SD2008T 1
2 千兆连接口 10/100/1000BASE-T口 16

    软件环境:

软件名称
软件版本
数量(套)
说明
国际某知名分布式数据库 V4.0 1  
DataCube V1.0 1  



   

    测试结果:

与某知名云计算数据库入库性能对比

点击查看大图




与某知名云计算数据库查询性能对比

点击查看大图



     从结果可以看出:DataMagic大数据一体机是一种处理海量数据高效分布式云处理平台,DataMagic大

市场应用

测试产品

产品规格

DataMagic大数据一体机软件规格说明
项目
内容
可管理的数据总量

可高效管理超过万亿条的记录

实时索引的数据流量

支持100Gbps以上量级的数据流实时索引,单节点数据入库索引速度可达10MB-20MB/s

任意关键字段实时创建索引

根据提供的表结构解析元数据,并根据提供的任意关键字段实时创建索引

可移植性

Java语言实现,具有跨平台性,一次编程,任意操作系统都可运行

查询效率

百亿条记录秒级响应,可支持对万亿条记录进行实时查询

支持简单SQL组合查询

采用和关系数据库混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务

负载均衡性

根据机器负载均衡,拔掉或增加一台节点后,仍能均匀地向各处理节点分发数据

支持并发查询

支持并发查询,查询请求都能正常下发执行、且都能正常返回结果

数据准确性

查询条件相同情况下,每次查询结果相同

稳定性

系统连续运行7*24小时,无任何故障,所有周期任务均正常执行,且执行结果正确

可靠性

没有单点故障,任意节点宕机,系统工作正常,可以继续进行数据处理和应用查询,不会影响分布式系统运行和查询结果的准确性

扩展性

既可以在很小规模机器上跑,也可以在成千上万台的机器上运行,而且经过很简单的操作就可以把规模扩展到成千上万台服务器,而且可靠性随着加入节点的增加成线性上升

分布式计算能力

集群能增加节点、并且能正常执行查询任务,在流量没变、资源增加的情况下,增加机器前后,查询任务耗时按比例降低

支持对外接口

提供专用API、Web访问和Web Services接口进行对外数据交互操作

监控功能

提供Web界面对分布式文件进行监控,支持查看、下载索引文件和元数据文件



DataMagic大数据一体机硬件规格说明
数量 项目 制造商 型号
1 Intel®服务器主板 S2600GL/GZ Intel S2600GL/GZ
1 Intel®服务器机箱 Intel R2000GL/GZ / R1000GL/GZ 家族
2 (每个节点) Intel® Xeon® 处理器 Intel 四核 Intel® Xeon® 处理器 E5-2600 产品家族
2-8 (每个节点) 4 GB 内存条 任何支持 请参考测试内存列表< http://www.intel.com/p/en_US/support/highlights/server/sb-s2600gz >
1 (每个节点) SATA 磁盘驱动器, 250 GB 或更大容量, 或者 Intel®SSD 任何支持 请参考测试硬件列表 < http://www.intel.com/p/en_US/support/highlights/server/sb-s2600gz >。
1 用于内部节点通信的低延迟千兆以太网交换机 任何 1GbE 交换机解决方案  
根据需要 千兆以太网线缆 任何支持 CAT5E
根据需要 InfiniBand* 线缆 任何支持  
1 (选择一个产品) ConnectX IB* – Dual-Port InfiniBand* Adapter Card Mellanox* MHGH28-XTC, MHGH29-XTC, MHJH29-XTC, MHRH29-XTC, MHQH29-XTC Fw Version: 2.6.000
Infinihost IB* – InfiniBand* Adapter Card MHET2X-1TC (Tall Bracket) MHET2X-2TC (Tall Bracket) MHET2X-1SC (Short Bracket) MHET2X-2SC (Short Bracket)
可选 I/O 模块 InfiniBand* 交换机 Qlogic* http://www.esaa-members.com, 上的 Intel® 服务器主板 S2600JF, 下载 QLogic* HCP Recipe
KVM 方案 (可选) Mellanox* http://www.esaa-members.com, 上的Intel® 服务器主板 S2600JF, 下载 Mellanox* HCP Recipe
Any KVM Solution  
以太网模块:双端口 Intel® 82599EB 10GbE I/O 模块 Intel AXX10GBNIAIOM
双端口 Intel® X540-BT2 10GbE I/O 模块   AXX10GBTWLIOM
四端口 Intel® I350-AE4 GbE I/O 模块 Intel AXX4P1GBPWLIOM
InfiniBand*模块 Intel  
基于 Mellanox* CX3 MT27504A1-FCCR-FV 芯片,带QSFP连接器的单端口FDR 56GT/S speed Intel® I/O 扩展InfiniBand* 模块 Intel AXX1FDRIBIOM
基于 Mellanox* CX3 MT27508A1-FCCR-FV 芯片,带QSFP连接器的双端口FDR 56GT/S (per port capable) speed Intel® I/O Expansion InfiniBand* 模块 Intel AXX2FDRIBIOM