首頁 > 數據資產管理解決方案 > 數據資產管理工具

管理工具

數據湖操作系統

數據湖操作系統主要由GDH(Googosoft Distribution Hadoop Manager)和數據中臺構成。GDH是Googosoft Distribution Hadoop Manager的簡寫,包含整個Hadoop生態體系。主要的組件有HDFS、Yarn、HBASE、Hive、Impala、Spark、Kafka、Sqoop、Oozie、HUE。GDH主要是用來存儲全量的結構化數據、半結構化數據和二進制數據。

數據中臺的作用,主要是驅動GDH,管理多樣化的數據。核心功能包括:創建數據服務接口、界面化定義視圖、應用服務化、數據質量檢測、元數據管理、數據標準維護、數據交換、流程化數據處理。

 

從數據生命周期來看,數據湖對于數據的處理方式涵蓋數據集成、數據存儲、數據治理、數據質量、自助數據發現和安全監管,一個管理完善的數據湖中的數據會保留原始數據,同時過程中數據會不斷地完善、演化,以滿足業務的需要。

1、數據集成:接入不同數據源,自動生成元數據信息,提供統一的接入方式。

2、數據存儲:存儲的數據量巨大且來源多樣,支持異構和多樣的存儲。自動提取元數據信息,建立統一的數據目錄。

3、數據治理:自動提取元數據信息,建立統一的數據目錄;建立數據血緣,梳理上下游的脈絡關系;數據變更影響范圍評估和數據價值評估;提供不同版本的數據,便于進行數據回溯和分析。

4、數據質量:提供數據字段校驗、數據完整性分析等功能;實時監控數據處理任務,避免不完備的數據。

5、自助數據發現:提供一系列數據分析工具,包括:聯合分析,交互式大數據SQL分析,機器學習,BI報表等等。

6、安全監管:對數據的使用權限進行監管;對敏感數據進行脫敏和加密。

數據湖操作系統具備以下特征:

1、保真性

數據湖操作系統對于業務系統中的數據都會存儲一份“一模一樣”的完整拷貝。

2、靈活性

使數據保持最為原始的狀態,一旦需要,可以根據需求對數據進行加工處理。

3、可管理性

提供完善的數據管理能力,包括:數據源、數據連接、數據格式、數據管理、權限安全管理等能力。

4、可追溯性

對數據的全生命周期進行管理,支持對任意一條數據的接入、存儲、處理、消費過程可追溯,能夠清楚的重現數據完整的產生過程和流動過程。

5、豐富的計算引擎

支持各類計算引擎,從批處理、流式計算、交互式分析到機器學習,并支持計算引擎的可擴展、可插拔。

6、多模態的存儲引擎

內置多模態的存儲引擎,以滿足不同的應用對于數據訪問需求,并且在需要時與外置存儲引擎協同工作,滿足多樣化的應用需求。

 

著作權


 

國子數據中心系統V2.0


 

國子數據標準管理系統V1.0


 

國子數據采集與上報系統V2.0


 

國子數據可視化平臺V1.0


 

國子數據中臺系統V1.0


一个人看www在线高清免费看,色综合婷婷在线,在线视频你懂得,青青草原视频在线