nba直播腾讯

admin · 2001-05-01

1、Greenplum数据库架构

  Greenplum数据库是范例的主从架构,一个Greenplum集群平淡由一个Master节点、一个Standby Master节点以及众个Segment实例构成,节点之间经由过程高速收集互连,如下图所示。Standby Master节点为Master节点供给高可用援助,Mirror Segment实例为Segment实例供给高可用援助。当Master节点映现阻滞时,数据库治理编制可能疾捷切换到Standby Master节点不绝供给任职。

  

  从软件的角度看,Greenplum数据库由Master节点、Segment实例和Interconnect组件三部份构成,各个功用模块正在编制中承载区别的脚色。

  Master节点是Greenplum数据库的主节点,也是数据库的进口,厉重担任采纳用户的SQL苦求,将其天生并行查问筹划并优化,而后将查问筹划分派给全盘的Segment实例举办治理,融合集群的各个Segment实例依照查问筹划一步一步地并行治理,终末获取Segment实例的估量了局并汇总后前往给客户端。

  从用户的角度看Greenplum集群,看到的只是Master节点,毋庸重视集群外部机制,全盘的并行治理都是正在Master节点独揽下自愿实行的。Master节点个别只存储编制数据,不存储用户数据。为了普及编制可用性,咱们平淡会正在Greenplum集群的终末一个数据节点上扩张一个Standby Master节点。

  Segment是Greenplum本质存储数据和举办数据读取估量的节点,每一个Segment都可能视为一个自力的PostgreSQL实例,下面寄存着一部份用户数据,同时插足SQL实施办事。Greenplum Datanode平淡是指Segment实例所正在的主机,用户可能遵循Datanode的CPU数、内存巨细、收集宽带等来肯定其下面的Segment实例个数。官方提议一个Datanode下面安置2~8个Segment实例。Segment实例越众,单个实例下面的数据越少(均匀分派的情形下),单个Datanode的资本利用越饱满,查问实施速率就越疾。Datanode任职器的数目遵循集群的数据量来肯定,最大可能援助上千台。别的,为了普及数据的安闲性,咱们偶然候会正在坐蓐境遇中创筑Mirror Segment实例举动备份镜像。

  Interconnect是Master节点与Segment实例、Segment实例与Segment实例之间举办数据传输的组件,它基于千兆交流机或许万兆交流机竣工数据正在节点之间的高速传输。默许情形下,Interconnect组件利用UDP正在集群收集节点之间传输数据,由于UDP无奈包管任职质料,因此Interconnect组件正在操纵层竣工了数据包验证功用,从而到达和TCP相通的牢靠性。

  Greenplum实施查问语句的历程如下:当GP Server收到用户倡始的查问语句时,会对查问语句举办编译、优化等操纵,天生并行实施筹划,散发给Segment实例实施;Segment实例经由过程Interconnect组件和Master节点、其余Segment实例交流数据,而后实施查问语句,实施终了后,会将数据发还给Master节点,终末Master节点汇总前往的数据并将其反应给查问终端。

   2、Greenplum的上风

  起初,与古板数据库比拟,Greenplum举动散布式数据库,自己拥有高本能上风。对各行各业来讲,OLTP编制最要紧的是正在包管ACID事宜治理属性的条件下满意交易的并发需要,看待大大批非中心操纵处景,MySQL、SQL Server、DB2、Oracle都可能满意编制条件,而且跟着MySQL本能的优化和云原生数据库的发扬,基于MySQL或许PostgreSQL贸易化的数据库会愈来愈遍及。数据中台的定位是一个OLAP编制,上述数据库就很难满意海量数据并发查问的条件了。上述数据库的横向扩大才智无限,而且软硬件本钱清脆,分歧不对适举动OLAP编制的数据库。Greenplum举动一款基于MPP架构的数据库,拥有开源、易于扩大、高查问本能的特色,性价比碾压DB2、Oracle、Teradata等古板数据库。

  其次,Greenplum举动散布式数据库,和同为散布式数据库的Hive比拟,上风也极度清楚。晚期Hadoop的无形式数据曾经闪开发者饱受疼痛,前面崛起的Hive、Presto、Spark SQL固然援助单纯的SQL,可是查问本能还是是分钟级此外,很难满意OLAP的及时了解需要。前期虽有Impala+Kudu,可是查问本能还是弱于同为MPP架构的Greenplum。除此除外,Hadoop生态圈极度繁复,安设和庇护的办事量都很大,没有专业的运维团队很难撑持编制运转。而Greenplum援助的SQL程序最统统,查问本能正在毫秒级,不但能很好地援助数据ETL治理和OLAP查问,还援助增编削等操纵,是一款归纳势力极度强的数据库。相对Hadoop众个组件构成的伟大编制,Greenplum数据库正在易用性、牢靠性、稳固性、开荒功效等方面都有极度清楚的上风。

  终末,Greenplum举动MPP数据库中的一员,相对其余MPP架构数据库,也拥有极度清楚的上风。Greenplum研发史乘长、操纵规模广、开源稳固、生态编制完满。生态编制完满是指Greenplum的器材箱极度众:GPload可满意高速加载需要,PXF可满意外置外和文献存储需要,MADlib可满够数据发掘需要,GPCC可满意编制监控运维需要。相对TiDB、TBase、GaussDB等新兴数据库来讲,Greenplum的操纵案例最众,生态编制最完满,而且Bug更少。同时,TiDB、TBase、GaussDB等数据库都定位于优先满意OLTP的同时普及OLAP的本能,而Greenplum是以OLAP优先的。固然前者也有上风,可是将OLAP和OLTP兼并竣工起来存正在如下困穷:数据散布正在区别的编制曾经是行业事实,没有手腕将数据纠合到统一个数据库;数据中台自然便是一个OLAP编制,没有手腕依照OLTP形式计划。综上,举动散布式瓜葛型数据库,Greenplum是搭筑数据中台的首选数据库。

  如下图是阿里巴巴大数据平台退化过程。2010年先后,阿里巴巴已经利用Greenplum来调换Oracle集群,将其举动数据了解平台。从数目上说,Greenplum正在2010年竣工了Oracle 10倍数据量的治理,即1000TB。但Oracle的架构这些年没有太大改观,而Greenplum数据库已有天翻地覆的刷新。正在阿里巴巴操纵的时期,Greenplum照样EMC旗下的商用数据库,平台尚正在发育期,功用也不太完满。而目前的Greenplum曾经是社区开源的产物,内核PostgreSQL也已实行了众个版本的晋级迭代,现正在更是微微松松援助上千台任职器的集群,所以承载PB级的数据自不正在话下。

  

  看待大大批有修建数据中台需要的企业,1000TB曾经是一个无奈企及的高度。大大批据企业的数据都正在数TB到100TB的规模内,这个领域的数据恰是Greenplum的厉重疆场。100TB如下领域的数据货仓或许数据中台,Hive施展不了架构上的上风,反而影响开荒速率和运维办事,实正在是得失相当。

  正在查问本能方面,Greenplum天然不是第一,固然业界尚无定论,可是据笔者领略,现在ClickHouse是当之无愧的OLAP冠军。相对ClickHouse,Greenplum胜正在高本能的GPload插件、壮大的ETL功用、不算太弱的增编削本能。现在,数据中台正在稳步向及时流治理迈进,因为不善于单条更新和删除,所以ClickHouse只合适实施离线数据查问职责,可能举动超大领域数据中台的OLAP查问引擎。

  综上所述,固然Greenplum某些方面不是最优异的,但还是最合适搭筑数据中台的散布式数据平台,而且以Greenplum现有的本能和治理的数据领域,可能满意绝大大批中小企业的数据中台需要。

   三、Greenplum本能测试

  gpcheckperf是Greenplum数据库自带的本能测试器材,正在指定的主机上启动会话并举办如下本能测试。

  1)磁盘I/O测试(dd测试):测试逻辑磁盘或文献编制的按次含糊本能,该器材利用dd夂箢。dd夂箢是一个程序的UNIX器材,记载了正在磁盘上读写一个大文献需求破费的时分,以MB/s为单元估量磁盘I/O本能。默许情形下,用于测试的文献尺寸依照主机上随机访候内存(RAM)的两倍估量。云云确保了测试是真正地测试磁盘I/O而不是利用内存缓存。

  2)内存带宽测试:为了测试内存带宽,该器材利用STREAM基准秩序来衡量可络续的内存带宽(以MB/s为单元)。本项测试实质是检讨操纵编制正在不触及CPU估量本能的情形下能否受编制内存带宽的限定。正在数据集较大的操纵秩序中(如正在Greenplum数据库中),低内存带宽是一个厉重的本能题目。假如内存带宽清楚低于CPU的外面带宽,则会招致CPU破费豪爽的时分期待数据从编制内存转达过去。

  3)收集本能测试:为了测试收集本能以及Greenplum数据库Interconnect组件的本能,该器材运转一种收集基准测试秩序,该秩序正在今朝主机联贯发送5s的数据流到测试蕴涵的每台长途主机上。数据被并行传输到每台长途主机,并以MB/s为单元,永别陈说最小、最大、均匀和中位收集传输速度。假如汇总的传输速度比预期慢(小于100MB/s),可能利用-r N选项串交运转该收集测试以获取每台主机的了局。要运转全矩阵带宽测试,用户可能指定-r M选项,这将招致每台主机都发送和采纳来自指定的其余主机的数据。该测试实用于验证交流构造能否可能继承全矩阵负载。

  gpcheckperf夂箢操纵举比如下。

  

#利用/data1和/data2举动测试目次正在文献host_file中的全盘主机上运转磁盘I/O和内存带宽测试gpcheckperf-fhostfile_gpcheckperf-d/data1-d/data2-rds#正在名为sdw1和sdw2的主机上只利用测试目次/data1运转磁盘I/O测试。外现单个主机了局并以精确形式运转gpcheckperf-hsdw1-hsdw2-d/data1-rd-D-v#利用测试目次/tmp运转并行收集测试,此中hostfile_gpcheck_ic*指定统一Interconnect子网内的全盘收集接口的主机所在称号gpcheckperf-fhostfile_gpchecknet_ic1-rN-d/tmpgpcheckperf-fhostfile_gpchecknet_ic2-rN-d/tmp

 

  本能测试时分平淡较长,为了举办完备的测试,我个别会创筑如下测试剧本,正在后盾实施本能测试职责。

  

#创筑如下shell剧本[gpadmin@gp-master~]$catgpcheckperf-test.sh#!bin/bashecho"---------start-----------"a=`date+"%Y-%m-%d%H:%M:%S"`echo$agpcheckperf-f/data/greenplum/greenplum-db/all_hosts-d/data/greenplum/-vecho"-------------end----------"b=`date+"%Y-%m-%d%H:%M:%S"`echo$b

 

  本能测试后盾实施nohup sh gpcheckperf-test.sh &夂箢后,检查nohup.out的输出了局,如下图所示(每台任职器采取10块广泛硬盘经由过程软件构成Raid 5)。

  

  对于作家:王春奔忙,资深架构师和数据货仓专家,现任上海启高消息科技无限公司大数据架构师,Apache Doris和openGauss孝敬者,Greenplum中文社区插足者。 大众号数据中台研习社经营者。

  本文摘编于《高效利用Greenplum:初学、进阶与数据中台》,经出书方受权宣告。(书号:9787111696490)转载请保存作品开头。

文章推荐:

2022 年中国人工智能行业发展现状与市场规模分析 市场规模超 3000 亿元

该来的总要来! 切尔西老板将彻底退出英国市场

雷神黑武士四代开售:i7搭RTX3060不到9千元

智慧城市中 5G 和物联网的未来