管理工具
數據湖操作系統
數據湖操作系統主要由GDH(Googosoft Distribution Hadoop Manager)和數據中臺構成。GDH是Googosoft Distribution Hadoop Manager的簡寫,包含整個Hadoop生態體系。主要的組件有HDFS、Yarn、HBASE、Hive、Impala、Spark、Kafka、Sqoop、Oozie、HUE。GDH主要是用來存儲全量的結構化數據、半結構化數據和二進制數據。
數據中臺的作用,主要是驅動GDH,管理多樣化的數據。核心功能包括:創建數據服務接口、界面化定義視圖、應用服務化、數據質量檢測、元數據管理、數據標準維護、數據交換、流程化數據處理。
從數據生命周期來看,數據湖對于數據的處理方式涵蓋數據集成、數據存儲、數據治理、數據質量、自助數據發現和安全監管,一個管理完善的數據湖中的數據會保留原始數據,同時過程中數據會不斷地完善、演化,以滿足業務的需要。
1、數據集成:接入不同數據源,自動生成元數據信息,提供統一的接入方式。
2、數據存儲:存儲的數據量巨大且來源多樣,支持異構和多樣的存儲。自動提取元數據信息,建立統一的數據目錄。
3、數據治理:自動提取元數據信息,建立統一的數據目錄;建立數據血緣,梳理上下游的脈絡關系;數據變更影響范圍評估和數據價值評估;提供不同版本的數據,便于進行數據回溯和分析。
4、數據質量:提供數據字段校驗、數據完整性分析等功能;實時監控數據處理任務,避免不完備的數據。
5、自助數據發現:提供一系列數據分析工具,包括:聯合分析,交互式大數據SQL分析,機器學習,BI報表等等。
6、安全監管:對數據的使用權限進行監管;對敏感數據進行脫敏和加密。
數據湖操作系統具備以下特征:
1、保真性
數據湖操作系統對于業務系統中的數據都會存儲一份“一模一樣”的完整拷貝。
2、靈活性
使數據保持最為原始的狀態,一旦需要,可以根據需求對數據進行加工處理。
3、可管理性
提供完善的數據管理能力,包括:數據源、數據連接、數據格式、數據管理、權限安全管理等能力。
4、可追溯性
對數據的全生命周期進行管理,支持對任意一條數據的接入、存儲、處理、消費過程可追溯,能夠清楚的重現數據完整的產生過程和流動過程。
5、豐富的計算引擎
支持各類計算引擎,從批處理、流式計算、交互式分析到機器學習,并支持計算引擎的可擴展、可插拔。
6、多模態的存儲引擎
內置多模態的存儲引擎,以滿足不同的應用對于數據訪問需求,并且在需要時與外置存儲引擎協同工作,滿足多樣化的應用需求。
著作權
國子數據中心系統V2.0
國子數據標準管理系統V1.0
國子數據采集與上報系統V2.0
國子數據可視化平臺V1.0
國子數據中臺系統V1.0