您需要為資料湖提供資料版本控制功能,但不確定 LakeFS 採取了哪些保障措施?如果這聽起來很熟悉,那麼這篇文章適合您。
繼續閱讀以探索您在使用lakeFS等第三方資料版本控制解決方案時可能面臨的潛在風險,並深入了解lakeFS為保護您的資料而採取的所有安全措施。
使用lakeFS有哪些潛在風險?
元資料損壞
當系統視圖、進程和功能因停電、病毒、駭客攻擊、硬體故障、升級失敗、磁碟空間不足、關機問題或其他原因而損壞時,就會發生元資料損壞。
服務中斷
任何雲端服務(例如 Amazon S3)都可能會遇到中斷。這種情況並不常發生,但最近在美國發生的 S3 重大故障中斷了 等許多服務。雖然極度不尋常,但類似的中斷可能會影響您的資料湖營運。
API 故障如果您正在進行提
交或合併操作,當 LakeFS 寫入 S3 儲存桶並且 S3 開始出現 API 故障時,會發生什麼情況?在使用第三方解決方案處理與 S3 儲存桶 英國 WhatsApp 號碼數據 相關的任何內容時,您需要考慮此風險。
LakeFS為確保資料安全所採取的措施
提交合併操作是原子的
使用lakeFS,您可以確保每個
提交和合併操作都是原子的。這意味著他們不能只完成部分。
那麼分支操作呢?另一方面,分支只能從一個完整的提交移動到另一個完整的提交。
元資料描述了提交包含的內容
在lakeFS中,描述提交內容的所有元資料都儲存在物件儲存本身中。因此,如果您使用 S3,您就可以享受S3 的 11 個 9 的耐用性。
儲存命名空間
LakeFS 伺服器通常不會將資料
物件寫入底層物件存儲,因為此任務委託給利用預簽名 URL 的 LakeFS 用戶端。
然而,伺服器確實指示客戶 以建立有關您喜歡和熟悉的主題的影片 端將物件寫入其託管儲存命名空間中的何處。透過這樣做,它有意將資料檔案分散到許多 S3 分區,以減少物件儲存限制的可能性。
將資料安全保障付諸實踐:逐步指南
LakeFS 安全保證增強的流程如下所示:
客戶端向伺服器發出提交 API 呼叫,其中包含儲存庫、分支 ID、訊息和可選元資料。
伺服器記錄分支目前指向的目前提交 ID。
伺服器建立一個新的暫存令
密封分支的目前令牌,以確保排除新的寫入。從現在開始,我們需要提交一組確保不可變的變更。
然後,所有密封的暫存 人工智慧數據 令牌都會序列化到物件存儲,形成與 RocksDB 相容的 SSTable 樹。
寫入提交記錄,指向物件儲存上該樹的根。
完成後,分支指標將被修改為指向我們建立的提交。這是一個原子比較和交換操作:只有在當前提交 ID
仍然是第二步驟中觀察
到的 ID 時,新提交才會生效。
如果第 6 步故障會怎樣?
步驟 6 失敗可能有兩個原因:
寫入 LakeFS 支援 KV 儲存時出現一般錯誤
在這種情況下,伺服器將重試 KV 寫入操作或放棄。提交操作失敗,並且您仍然指向現有提交。
比較和交換謂詞失敗
這意味著有人「比我們先一步」——另一個提交/合併在我們之前成功完成。此時,您可以在第二步重新啟動流程。這確保了原子性並確保正確維護父子關係。就像在 Git 中一樣,每個提交都指向其父級。
包起來
LakeFS 為突然的 S3 停機或 API 故障等情況做好了準備,並提供了作為分支、提交和合併流程一部分的許多保證。