只有數據本身準確、一致且可靠,基於數據的決策才能產生正面影響。高數據品質至關重要,數據品質檢查是組織處理數據的關鍵部分。
這就是dbt 的用武之地。
透過在 dbt 工作流程中實施資料品質測試,您建立的流程不僅可以保護資料的可信度,還可以增強人們對由此產生的見解和決策的信心。
定期執行這些測試有助於及早識
別資料品質問題,從而降低基於不準確或不一致的資料進行有缺陷的分析和不當決策的風險。
dbt 品質檢查到底是什麼?繼續閱讀以找出答案。
什麼是 dbt 資料品質檢查?
dbt(資料建構工具)是一種用 Python 建構的流行開源命令列實用程式。 使資料團隊能夠建置、測試和部署複雜的資料轉換並執行內建的資料品質檢查。這些測試可讓您確認整個資料管道中資料的準確性和一致性。透過 資料品質測試,您可以在將資料用於下游分析之前確保資料正確。
一般來說,測試是 dbt 程式碼庫
中所述的操作,用於審核資料平台上的資料。 生態系統透過額外的套件(例如傳統的 dbt 期望)擴展了開箱即用的測試邏輯。
當 dbt 管道中產生資料集時,該工具會進行審核並根據測試結果(通過、失敗、警告)決定是否建置下一個資料集。如果檢查失敗,您可以指示 dbt 發出警告並繼續建置下游模型,或指定運行應終止並引發異常。
資料來源:dbt
dbt 測試與資料可觀察性
您可能聽說過數據 阿聯酋 WhatsApp 號碼數據 可觀察性,並可能懷疑它與數據測試不同。數據可觀察性是指對已投入生產的數據狀況進行持續監控並識別異常情況。
可觀察性有助於即時發現即時數據品質問題,例如檢查是否:
列中 NULL 值的百分比異常高
分析事件已停止發送數據
匯總收入列會產生預期值的一半
雖然測試和可觀察性是數據品質計劃的關鍵組成部分,但透過測試專注於數據品質預防有助於消除大多數問題。它透過減少出現生產問題時需要處理的噪音來增強生產中的數據監控。
用於資料品質檢查的 dbt 測試類型
通用測試
通用測試是基本 dbt 安裝附帶
的內建模組。核心 dbt 安裝包括四個通用測試:
獨特的
不為空
接受值
關係
通用測試相對簡單地包 副業可以讓你利用你的社群 含在您的測試方法中。您可以在專案資料夾中的檔案中描述通用狀態。
如果您需要更多測試能力怎麼辦?您可以使用外部套件新增更多測試,例如Great Expectations。
自訂通用測試
dbt 允許使用者編寫自己的自訂測試來滿足某些用例。但是,在建立自己的測試之前,請檢查它們是否在
開源解決方案中可用如果您
找到所需的測試,您可以輕鬆地從各種套件中匯入它們。
若要匯入套件(在我們的範例中為,請在專案資料夾中建立一個檔案並包含以下內容:
複製程式碼
packages:
若要安裝 人工智慧數據 此軟體包,請使用以下命令:
複製程式碼
dbt dependencies
如果該套件已正確安裝,您就可以從
中匯入測試了。要使用這些測試,只需將它們新增至您為核心 dbt 通用測試準備的架構 YAML 檔案。
奇異測試
當您需要建立我們自己的自訂測試時,單一測試非常有用。它們是與特定模型相關的 SQL 定義。如果測試成功,它應該產生一個空的結果集。單一測試允許使用者使用自己的用例開發測試。
還允許用戶將他們的單獨測試轉換為通用測試。這些巨集相當於 Python 和 Java 等程式語言中的函數。透過使用 Jinja 模板語言中的宏,該工具可以避免在不同模型之間重複程式碼。
使用 資料品質檢查的好處
使用 資料品質測試具有多種優勢,包括:
增強對資料正確性的信任-對資料執行自動檢查可以讓資料消費者對其品質和完整性更有信心。
及早識別資料品質問題—透過使用 dbt 資料品質檢查,您可以在資料管道中及早發現錯誤,避免它們對下游造成困難。
更快解決資料品質問題– 透過使用自動化測試,您可以快速檢測和處理資料品質問題,從而騰出團隊的時間進行更具策略性的活動。