自慰套教室～女子全员妊娠,精品无码国产自产拍在线观看蜜桃,亚洲国产精品成人精品无码区,久别的草原在线看视频免费

<table id="gg82g"><noscript id="gg82g"></noscript></table>

微信
電話

復制成功

微信號:togogoi

添加微信好友, 詳細了解課程

已復制成功，如果自動跳轉微信失敗，請前往微信添加好友

打開微信

學習資源

思科

網絡工程

CCNA CCNA-RS| CCNA-Sec| CCNA-SP| CCNA-Collaboration| CCNA-DC| CCNA-Wireless| CCNA-Cloud

CCNP CCNP-RS| CCNP-Sec| CCNP-SP| CCNP-Collaboration| CCNP-DC| CCNP-Wireless| CCNP-Cloud

CCIE CCIE-RS| CCIE-Sec| CCIE-SP| CCIE-Collaboration| CCIE-DC| CCIE-Wireless|

華為

網絡工程

HCNA HCNA-RS| HCNA-Sec| HCNA-Cloud| HCNA-Storage| HCNA-BigData| HCNA-WLAN| HCNA-Transmission|
HCNA-UC| HCNA-VC| HCNA-CC

HCNP HCNP-RS| HCNP-Sec| HCNP-Cloud| HCNP-Storage| HCNP-BigData| HCNP-WLAN| HCNP-Transmission|
HCNP-UC| HCNP-VC| HCNP-CC

HCIE HCNP-RS| HCNP-Sec| HCNP-Cloud| HCNP-Storage| HCNP-DC| HCNP-Transmission

紅帽

系統運維

RHCSA

RHCE

RHCA

OpenStack

RHCVA

RHCSS

甲骨文

數據庫

OCA

OCP

OCM

MySQL

微軟

系統運維

MTA

MCSA

MCSE

軟件開發

編程設計

Java

Android

HTML5

UI

其他

其他

Python

學習文章

當前位置：首頁 > >學習文章 > >

{大數據}RDD分布式數據集

發布時間： 2018-01-10 11:39:28

?RDD的屬性:

1）一組分片（Partition），即數據集的基本組成單位。對于RDD來說，每個分片都會被一個計算任務處理，并決定并行計算的粒度。用戶可以在創建RDD時指定RDD的分片個數，如果沒有指定，那么就會采用默認值。默認值就是程序所分配到的CPU Core的數目。

2）一個計算每個分區的函數。Spark中RDD的計算是以分片為單位的，每個RDD都會實現compute函數以達到這個目的。compute函數會對迭代器進行復合，不需要保存每次計算的結果。

3）RDD之間的依賴關系。RDD的每次轉換都會生成一個新的RDD，所以RDD之間就會形成類似于流水線一樣的前后依賴關系。在部分分區數據丟失時，Spark可以通過這個依賴關系重新計算丟失的分區數據，而不是對RDD的所有分區進行重新計算。

4）一個Partitioner，即RDD的分片函數。當前Spark中實現了兩種類型的分片函數，一個是基于哈希的HashPartitioner，另外一個是基于范圍的RangePartitioner。只有對于于key-value的RDD，才會有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函數不但決定了RDD本身的分片數量，也決定了parent RDD Shuffle輸出時的分片數量。

5）一個列表，存儲存取每個Partition的優先位置（preferred location）。對于一個HDFS文件來說，這個列表保存的就是每個Partition所在的塊的位置。按照“移動數據不如移動計算”的理念，Spark在進行任務調度的時候，會盡可能地將計算任務分配到其所要處理數據塊的存儲位置。

創建RDD:?

1）由一個已經存在的Scala集合創建。

val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))

2）由外部存儲系統的數據集創建，包括本地的文件系統，還有所有Hadoop支持的數據集，比如HDFS、Cassandra、HBase等

val rdd2 = sc.textFile("hdfs://hdp01:9000/words.txt")

RDD編程API

TransformationRDD中的所有轉換都是延遲加載的，也就是說，它們并不會直接計算結果。相反的，它們只是記住這些應用到基礎數據集（例如一個文件）上的轉換動作。只有當發生一個要求返回結果給Driver的動作時，這些轉換才會真正運行。這種設計讓Spark更加有效率地運行。

常用的Transformation：

?

Action:?

WordCount中的RDD:

RDD的依賴關系:

RDD和它依賴的父RDD（s）的關系有兩種不同的類型，即窄依賴（narrow dependency）和寬依賴（wide dependency）。

???

窄依賴:

窄依賴指的是每一個父RDD的Partition最多被子RDD的一個Partition使用

總結：窄依賴我們形象的比喻為獨生子女

寬依賴:

寬依賴指的是多個子RDD的Partition會依賴同一個父RDD的Partition

總結：窄依賴我們形象的比喻為超生

?

Lineage:

RDD只支持粗粒度轉換，即在大量記錄上執行的單個操作。將創建RDD的一系列Lineage（即血統）記錄下來，以便恢復丟失的分區。RDD的Lineage會記錄RDD的元數據信息和轉換行為，當該RDD的部分分區數據丟失時，它可以根據這些信息來重新運算和恢復丟失的數據分區。

RDD的緩存:

Spark速度非?？斓脑蛑?，就是在不同操作中可以在內存中持久化或緩存個數據集。當持久化某個RDD后，每一個節點都將把計算的分片結果保存在內存中，并在對此RDD或衍生出的RDD進行的其他動作中重用。這使得后續的動作變得更加迅速。RDD相關的持久化和緩存，是Spark最重要的特征之一?？梢哉f，緩存是Spark構建迭代式算法和快速交互式查詢的關鍵。

RDD緩存方式:

RDD通過persist方法或cache方法可以將前面的計算結果緩存，但是并不是這兩個方法被調用時立即緩存，而是觸發后面的action時，該RDD將會被緩存在計算節點的內存中，并供后面重用。?

通過查看源碼發現cache最終也是調用了persist方法，默認的存儲級別都是僅在內存存儲一份，Spark的存儲級別還有好多種，存儲級別在object StorageLevel中定義的。?

?

緩存有可能丟失，或者存儲存儲于內存的數據由于內存不足而被刪除，RDD的緩存容錯機制保證了即使緩存丟失也能保證計算的正確執行。通過基于RDD的一系列轉換，丟失的數據會被重算，由于RDD的各個Partition是相對獨立的，因此只需要計算丟失的部分即可，并不需要重算全部Partition。

DAG的生成:

DAG(Directed Acyclic Graph)叫做有向無環圖，原始的RDD通過一系列的轉換就就形成了DAG，根據RDD之間的依賴關系的不同將DAG劃分成不同的Stage，對于窄依賴，partition的轉換處理在Stage中完成計算。對于寬依賴，由于有Shuffle的存在，只能在parent RDD處理完成后，才能開始接下來的計算，因此寬依賴是劃分Stage的依據。??

?

?

QQ空間新浪微博騰訊微博人人網微信更多

上一篇： {大數據}Spark SQL

下一篇： {大數據}spark入門

十五年老品牌

微信咨詢：togogoi 咨詢電話：18922156670 咨詢網站客服：在線客服

相關課程推薦

客服熱線

18922156670

微信咨詢：togogoi

全國校區

廣州總校區：廣州市天河區科韻路棠安路188號樂天大廈2樓整層
深圳分校區：深圳市南山區南油第四工業區2棟602室
其他城市校區為流動地址,請聯系網站客服獲取校區地址

關注我們

Copyright © 2018-2023 廣州騰科網絡技術有限公司 All rights reserved 粵ICP備12042194號

點擊QQ咨詢
聯系電話：18922156670
在線咨詢

在線咨詢 ×

您好，請問有什么可以幫您？我們將竭誠提供最優質服務！

QQ咨詢下次再說

<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>