2020欧洲杯直播爱奇艺

admin · 2014-12-01

  

  数据明白是对数据举行摄取、转换和可视化的进程,用来挖掘对交易计划有效的洞睹。

  正在从前的十年中,愈来愈众的数据被征采,客户愿望从数据中取得更有代价的洞睹。他们还愿望能正在最短的时分内(乃至及时地)取得这类洞睹。他们愿望有更众的偶然盘问以便解答更众的交易成绩。为了解答这些成绩,客户必要更壮大、更高效的编制。

  批管束往往触及盘问豪爽的冷数据。正在批管束中,可以必要几个小时才略取得交易成绩的谜底。比方,你可以会利用批管束正在月尾天生账单通知。

  及时的流管束往往触及盘问少许的热数据,只要要很短的时分就能够获得谜底。比方,基于MapReduce的编制(如Hadoop)便是撑持批管束功课范例的平台。数据货仓是撑持盘问引擎范例的平台。

  流数据管束必要摄取数据序列,并依照每条数据记实举行增量更新。往往,它们摄取一连发生的数据流,如计量数据、监控数据、审计日记、调试日记、网站点击流以及装备、职员和商品的位子跟踪事务。

  图13-6映现了利用AWS云手艺栈管束、转换并可视化数据的数据湖流水线。

  

  

▲图13-6 利用数据湖ETL流水线管束数据

  正在这里,ETL流水线利用Amazon Athena对存储正在Amazon S3中的数据举行偶然盘问。从种种数据源(比方,Web运用供职器)摄取的数据会天生日记文献,并历久留存正在S3。而后,这些文献将被Amazon Elastic MapReduce(EMR)转换和洗涤成发生洞睹所需的形势并加载到Amazon S3。

  用COPY号令将这些转换后的文献加载到Amazon Redshift,并利用Amazon QuickSight举行可视化。利用Amazon Athena,你能够正在数据存储时直接从Amazon S3中盘问,也能够正在数据转换后盘问(从会合后的数据集)。你能够正在Amazon QuickSight中对数据举行可视化,也能够正在稳固革现罕睹据流程的情状下轻松盘问这些文献。

  如下是极少最盛行的能够助助你对海量数据举行转换和管束的数据管束手艺:

   01 Apache Hadoop

  Apache Hadoop利用漫衍式管束架构,将职分散发到供职器集群长进行管束。散发到集群供职器上的每一项职分都能够正在大肆一台供职器上运转或从新运转。集群供职器往往利用HDFS将数据存储到当地举行管束。

  正在Hadoop框架中,Hadoop将大的功课豆剖成份离的职分,并行管束。它能正在数目雄伟的Hadoop集群中实行大领域的伸缩性。它还安排了容错功效,每一个职业节点都市按期向主节点通知自身的形态,主节点能够将职业负载从没有踊跃呼应的集群从新分拨出去。

  Hadoop最常用的框架有Hive、Presto、Pig和Spark。

   02 Apache Spark

  Apache Spark是一个内存管束框架。Apache Spark是一个大领域并行管束编制,它有差异的实施器,能够将Spark功课拆分,并行实施职分。为了普及功课的并行度,能够正在集群中减少节点。Spark撑持批管束、交互式和流式数据源。

  Spark正在功课实施过程当中的一齐阶段都利用有向无环图(Directed Acyclic Graph,DAG)。DAG能够跟踪功课过程当中数据的转换或数据因循情状,并将DataFrames存储正在内存中,无效地最小化I/O。Spark还存在分区感知功效,以防止收集稠密型的数据改选。

   03 Hadoop用户休会

  Hadoop用户休会(Hadoop User Experience,HUE)使你或许经由过程基于涉猎器的用户界面而不是号令行正在集群长进行盘问并运转剧本。

  HUE正在用户界面中供应了最常睹的Hadoop组件。它能够基于涉猎器检查和跟踪Hadoop操纵。众个用户能够登录HUE的派别会见集群,统治员能够手动或经由过程LDAP、PAM、SPNEGO、OpenID、OAuth和SAML2认证统治会见。HUE答应你及时检查日记,并供应一个元存储统治器来操纵Hive元存储实质。

   04 Pig

  Pig往往用于管束豪爽的原始数据,而后再以组织化方式(SQL外)存储。Pig实用于ETL操纵,如数据验证、数据加载、数据转换,以及以众种方式组合来自众个来历的数据。除了ETL,Pig还撑持瓜葛操纵,如嵌套数据、连绵和分组。

  Pig剧本能够利用非组织化和半组织化数据(如Web供职器日记或点击流日记)行为输入。比拟之下,Hive老是哀求输入数据餍足必定形式。Pig的Latin剧本包括对于怎样过滤、分组和连绵数据的指令,但Pig并不绸缪成为一种盘问说话。Hive更合适盘问数据。Pig剧本依照Pig Latin说话的指令,编译并运转以转换数据。

   05 Hive

  Hive是一个开源的数据货仓和盘问包,运转正在Hadoop集群之上。SQL是一项尽头常睹的妙技,它能够助助团队轻松过渡到大数据寰宇。

  Hive利用了一品种似于SQL的说话,叫作Hive Query说话(Hive Query Language,HQL),这使得正在Hadoop编制中盘问和管束数据变得尽头轻易。Hive笼统了用Java等编码说话编写次第来实施明白功课的繁复性。

   06 Presto

  Presto是一个相仿Hive的盘问引擎,但它的速率更疾。它撑持ANSI SQL尺度,该尺度很轻易练习,也是最盛行的妙技集。Presto撑持繁复的盘问、连绵和会合功效。

  与Hive或MapReduce差异,Presto正在内存中实施盘问,裁汰了耽误,普及了盘问功能。正在拣选Presto的供职器容量时必要当心,由于它必要有充足的内存。内存溢出时,Presto功课将从新启动。

   07 HBase

  HBase是行为开源Hadoop名目的一一面隔辟的NoSQL数据库。HBase运转正在HDFS上,为Hadoop生态编制供应非瓜葛型数据库。HBase有助于将豪爽数据紧缩并以列式方式存储。同时,它还供应了火速查找功效,由于此中很大一一面数据被缓存正在内存中,集群实例存储也同时正在利用。

   08 Apache Zeppelin

  Apache Zeppelin是一个创筑正在Hadoop编制之上的用于数据明白的基于Web的编纂器,又被称为Zeppelin Notebook。它的后盾说话利用认识释器的观念,答应任何说话接入Zeppelin。Apache Zeppelin蕴涵极少根基的图外和透视图。它尽头灵巧,任何说话后盾的任何输出了局都能够被辨认和可视化。

   09 Ganglia

  Ganglia是一个Hadoop集群监控器材。不过,你必要正在启动时正在集群上装配Ganglia。Ganglia UI运转正在主节点上,你能够经由过程SSH会见主节点。Ganglia是一个开源名目,旨正在监控集群而不影响其功能。Ganglia能够助助查抄集群中各个供职器的功能以及集群满堂的功能。

   10 JupyterHub

  JupyterHub是一个众用户的Jupyter Notebook。Jupyter Notebook是数据迷信家举行数据工程和ML的最盛行的器材之一。JupyterHub供职器为每一个用户供应基于Web的Jupyter Notebook IDE。众个用户能够同时利用他们的Jupyter Notebook来编写和实施代码,从而举行追求性数据明白。

   11 Amazon Athena

  Amazon Athena是一个交互式盘问供职,它利用尺度ANSI SQL语法正在Amazon S3工具存储上运转盘问。Amazon Athena创筑正在Presto之上,并扩大了行为托管供职的偶然盘问功效。Amazon Athena元数据存储与Hive元数据存储的职业形式相通,于是你能够正在Amazon Athena中利用与Hive元数据存储相通的DDL语句。

  Athena是一个无供职器的托管供职,这象征着一齐的根底方法和软件运维都由AWS认真,你能够直接正在Athena的基于Web的编纂器中实施盘问。

   12 Amazon Elastic MapReduce

  Amazon Elastic MapReduce(EMR)性质上是云上的Hadoop。你能够利用EMR来发扬Hadoop框架与AWS云的壮大功效。EMR撑持一齐最盛行的开源框架,蕴涵Apache Spark、Hive、Pig、Presto、Impala、HBase等。

  EMR供应认识耦的算计和存储,这象征着无须让大型的Hadoop集群赓续运行,你能够实施数据转换并将了局加载到历久化的Amazon S3存储中,而后封闭供职器。EMR供应了主动伸缩功效,为你减削了装配和更新供职器的种种软件的统治开支。

   13 AWS Glue

  AWS Glue是一个托管的ETL供职,它有助于实行数据管束、注册和机械练习转换以查找反复记实。AWS Glue数据目次与Hive数据目次兼容,并正在种种数据源(蕴涵瓜葛型数据库、NoSQL和文献)间供应蚁合的元数据存储库。

  AWS Glue创筑正在Spark集群之上,并将ETL行为一项托管供职供应。AWS Glue可为常睹的用例天生PySpark和Scala代码,于是无须要重新开头编写ETL代码。

  Glue功课受权功效可管束功课中的任何纰谬,并供应日记以认识底层权限或数据方式成绩。Glue供应了职业流,经由过程浅易的拖放功效助助你创筑主动化的数据流水线。

   小结

  数据明白和管束是一个雄伟的焦点,值得零丁写一本书。本文具体地先容了数据管束的盛行器材。另有更众的专有和开源器材可供拣选。

  对于作家:所罗伯·斯里瓦斯塔瓦(Saurabh Shrivastava)是一名手艺率领者、作家、发现家和公然演说家,正在IT行业具有胜过16年的职业体味。他现在正在Amazon Web Services(AWS)负责处理计划架构师团队认真人,助助环球研究协作搭档和企业客户睁开云算计之旅。他还牵头了环球手艺搭档的协作,而且具有云平台主动化规模的专利。

  内拉贾利·斯里瓦斯塔夫(Neelanjali Srivastav)是一名手艺率领者、疾捷锻练和云算计从业者,正在软件行业具有胜过14年的体味。她具有昌迪加尔旁遮普大门生物消息学和消息手艺专业的学士和硕士学位。

  本文摘编自《处理计划架构师修炼之道》,经出书方受权公布。(ISBN:9787111694441)

文章推荐:

nba2k18传奇版

cba2k巨星时刻

nba2k11没声音

大赢家篮球比分