瑞典vs欧洲杯直播

admin · 2017-12-01

数据发散 甚么是数据发散

  正在join的过程当中,干系键展示一对众,或许众对众岁月,制出了局存正在反复。

   数据发散症状 症状

  (1)了局存正在反复。

  (2)数据量剧增。

  (3)恐怕招致无奈应用平常资本打点竣事。

   排查

  (1)展示这类原由便是

  A left join B 的岁月,应用主键的干系要求中,没相合联到外B的最小粒度。

  (2)查找是不是这类原由

  select 干系字段 from table group by 干系字段 having count(干系字段)>1 便可能断定能否相合联字段展示不独一的发散状况。

   防止或处分

  (1)假如右外干系字段有反复值则要去重,不然数据会发散。

  (2)留意写好SQL,能否存正在营业逻辑的失误(干系字段用错)。

   笛卡儿积 甚么是笛卡儿积

  笛卡尔积正在SQL中的告终方法既是穿插邻接(Cross Join)。全数邻接方法都市老师成暂时笛卡尔积外,笛卡尔积是合连代数里的一个观念,呈现两个外中的每一行数据纵情组合。

   笛卡儿积案例 A外 id name city 1 aa 1001 2 bb 1002 3 cc 1003 B外 id city_name 1 a城 2 b城 3 c城 SQL

SELECT*FROMA,B;

了局 id name city id city_name 1 aa 1001 1 a城 1 aa 1001 2 bb 1 aa 1001 3 c城 2 bb 1002 1 a城 2 bb 1002 2 bb 2 bb 1002 3 c城 3 cc 1003 1 a城 3 cc 1003 2 bb 3 cc 1003 3 c城 出现原由

 

  (1)当邻接没有on要求是,会展示笛卡尔积(完全笛卡尔积)。

  (2)当邻接on要求口舌独一字段时,会展示笛卡尔积(局限笛卡尔积)。

  (3)join的两个外中都含有空值。

   奈何防止或处分

  (1)干系领域正在最小粒度的列.

  (2)反省外的干系字段能否有空值。

   数据倾斜 甚么是数据倾斜

  数据倾斜最空洞观念便是数据的漫衍不服均,有些处所数据众,有些处所数据少。正在计划过程当中有些处所数据早早地打点完了,有些处所数据迟迟没有打点竣事,酿成悉数打点流程迟迟没有终止,这便是最直接数据倾斜的发扬。

   数据倾斜症状 Hive

  hive本身的MR引擎:涌现全数的map task完全竣事,而且99%的reduce task竣事,只剩下一个或许众数几个reduce task始终正在奉行,这类状况下日常都是产生了数据倾斜。说白了便是Hive的数据倾斜本色上是MapReduce的数据倾斜。

   Flink

  (1)Flink 工作展示数据倾斜的直观发扬是工作节点屡次展示反压。

  (2)部门节点展示 OOM十分,是由于豪爽的数据聚积正在某个节点上,招致该节点内存被爆,工作腐臭重启。

   Spark

  (1)Executor lost,OOM,Shuffle历程堕落。

  (2)Driver OOM。

  (3)单个Executor奉行时候希奇久,总体工作卡正在某个阶段不行终止。

  (4)平常运转的工作忽然腐臭。

   奈何防止或处分

  不论再展示漫衍式计划框架展示数据倾斜成绩处分思绪如下:许众数据倾斜的成绩,都可能用和缓台有合的方法处分,比方更好的数据预打点,十分值的过滤等。因而,处分数据倾斜的核心正在于对数据策画和营业的清楚,这两个搞明白了,数据倾斜就处分了大部门了。存眷这几个方面:

   营业逻辑方面

  (1)数据预打点。

  (2)处分热门数据:分而治之(第一次打散计划,第二次再终极凑集计划)。

   步伐代码层面

  (1)招致终极唯有一个Reduce工作的,必要念到用代替的环节字或许算子去擢升Reduce工作数。

  (2)调参。

   谙习本人手中的器械(框架)

  出色的框架依然负重前行给你优化了很众众少不单要学,更学会去用,更要发奋去完竣拓展框架效力。

文章推荐:

cba大白熊是谁

直播欧冠预选赛赛程

大地欧洲杯直播

cctv怎么看欧洲杯直播表