平臺涵蓋海量數據的采集、存儲、計算、分析挖掘、應用建模的需要,滿足高可用性、高擴展性、高可靠性要求。
基于開源技術的成熟大數據平臺,包含以Hadoop為主的大數據生態基礎引擎。平臺涵蓋海量數據的采集、存儲、計算、分析挖掘、應用建模的需要,滿足高可用性、高擴展性、高可靠性要求。終端用戶可通過豐富的平臺接口,完成各行業大規模數據的挖掘分析與應用對接管理。
數據匯集支持多種格式的數據采集,并能在數據采集過程中對數據進行持續化的預處理。通過對多種采集作業提供統一的操作與管控能力,讓數據的采集過程可視、可管、可控。
數據處理算法庫提供大量的基于批處理、內存、流式計算的算法模型,這些算法模型有一些是大數據平臺內置的通用性算法模型,也支持用戶自定義上傳算法包,數據處理算法庫的主要作用是為大數據平臺提供數據分析和挖掘的能力。用戶根據所需選擇合適的算法,或者基于自己定義的算法包,新建計算作業,由作業管理中的資源管理系統來分配和調度計算資源環境,在環境中加載算法庫完成數據計算和處理。除此外,數據處理算法庫還包括數據抽取算法、數據檢索算法等其他計算框架的算法。
大數據平臺體現兩種能力,即Hadoop即服務和數據即服務。
Hadoop即服務主要表現在:
以資源管理為核心,進行資源分配和調度,并根據分配的資源來承載預定的存儲框架和計算框架,來體現存儲框架、計算框架按需分配,按需使用,按需計量;
存儲框架和計算框架可在線裝卸,靈活的擴充Hadoop能力,并對外提供Hadoop組件服務。
數據即服務主要表現在:
大數據平臺匯集各個數據源,并將匯集的數據對外提供服務;
大數據平臺集成通用的數據模型算法,可以根據這些數據模型來進行初步的數據清洗、數據分析挖掘,并將處理后的數據開放出去,對外提供服務;
大數據平臺可以插入用戶自定義的數據模型,并根據用戶自定義的數據模型進行分析處理,并將處理結果數據開放出去,對外提供服務。
?大數據平臺一方面要匯集多個數據源的數據,另一方面要將平臺的數據和計算能力以標準化的API接口開放出去,應用系統可以基于這些接口來快速開發應用和支撐應用的運行。
在大數據平臺服務器安裝BSS-Data大數據平臺套件,包括大數據管理平臺、Hadoop組件等。通過Web管理界面,實現向服務器節點添加各類Hadoop服務組件,如HDFS,HBase,Solr,Spark等,提供分布式計算與存儲能力;安裝分布式資源管理框架YARN,實現對集群資源的管理和任務的調度監控;安裝分布式海量數據采集、聚合和傳輸系統Flume,實現對非結構化數據的采集。大數據平臺提供的組件包括:HDFS、Mapreduce、Hbase、Hive、Hue、Solr、Sqoop、Spark、Oozie、Zookeeper、Flume等,在實際使用的情況下可根據業務需要進行選擇性安裝。
數據匯集支持多種格式的數據采集,并能在數據采集過程中對數據進行持續化的預處理。通過對多種采集作業提供統一的操作與管控能力,讓數據的采集過程可視、可管、可控。
數據處理算法庫提供大量的基于批處理、內存、流式計算的算法模型,這些算法模型有一些是大數據平臺內置的通用性算法模型,也支持用戶自定義上傳算法包,數據處理算法庫的主要作用是為大數據平臺提供數據分析和挖掘的能力。用戶根據所需選擇合適的算法,或者基于自己定義的算法包,新建計算作業,由作業管理中的資源管理系統來分配和調度計算資源環境,在環境中加載算法庫完成數據計算和處理。除此外,數據處理算法庫還包括數據抽取算法、數據檢索算法等其他計算框架的算法。
大數據平臺體現兩種能力,即Hadoop即服務和數據即服務。
Hadoop即服務主要表現在:
以資源管理為核心,進行資源分配和調度,并根據分配的資源來承載預定的存儲框架和計算框架,來體現存儲框架、計算框架按需分配,按需使用,按需計量;
存儲框架和計算框架可在線裝卸,靈活的擴充Hadoop能力,并對外提供Hadoop組件服務。
數據即服務主要表現在:
大數據平臺匯集各個數據源,并將匯集的數據對外提供服務;
大數據平臺集成通用的數據模型算法,可以根據這些數據模型來進行初步的數據清洗、數據分析挖掘,并將處理后的數據開放出去,對外提供服務;
大數據平臺可以插入用戶自定義的數據模型,并根據用戶自定義的數據模型進行分析處理,并將處理結果數據開放出去,對外提供服務。
?大數據平臺一方面要匯集多個數據源的數據,另一方面要將平臺的數據和計算能力以標準化的API接口開放出去,應用系統可以基于這些接口來快速開發應用和支撐應用的運行。
數據處理算法庫提供大量的基于批處理、內存、流式計算的算法模型,這些算法模型有一些是大數據平臺內置的通用性算法模型,也支持用戶自定義上傳算法包,數據處理算法庫的主要作用是為大數據平臺提供數據分析和挖掘的能力。用戶根據所需選擇合適的算法,或者基于自己定義的算法包,新建計算作業,由作業管理中的資源管理系統來分配和調度計算資源環境,在環境中加載算法庫完成數據計算和處理。除此外,數據處理算法庫還包括數據抽取算法、數據檢索算法等其他計算框架的算法。
數據匯集支持多種格式的數據采集,并能在數據采集過程中對數據進行持續化的預處理。通過對多種采集作業提供統一的操作與管控能力,讓數據的采集過程可視、可管、可控。
數據處理算法庫提供大量的基于批處理、內存、流式計算的算法模型,這些算法模型有一些是大數據平臺內置的通用性算法模型,也支持用戶自定義上傳算法包,數據處理算法庫的主要作用是為大數據平臺提供數據分析和挖掘的能力。用戶根據所需選擇合適的算法,或者基于自己定義的算法包,新建計算作業,由作業管理中的資源管理系統來分配和調度計算資源環境,在環境中加載算法庫完成數據計算和處理。除此外,數據處理算法庫還包括數據抽取算法、數據檢索算法等其他計算框架的算法。
大數據平臺體現兩種能力,即Hadoop即服務和數據即服務。
Hadoop即服務主要表現在:
以資源管理為核心,進行資源分配和調度,并根據分配的資源來承載預定的存儲框架和計算框架,來體現存儲框架、計算框架按需分配,按需使用,按需計量;
存儲框架和計算框架可在線裝卸,靈活的擴充Hadoop能力,并對外提供Hadoop組件服務。
數據即服務主要表現在:
大數據平臺匯集各個數據源,并將匯集的數據對外提供服務;
大數據平臺集成通用的數據模型算法,可以根據這些數據模型來進行初步的數據清洗、數據分析挖掘,并將處理后的數據開放出去,對外提供服務;
大數據平臺可以插入用戶自定義的數據模型,并根據用戶自定義的數據模型進行分析處理,并將處理結果數據開放出去,對外提供服務。
?大數據平臺一方面要匯集多個數據源的數據,另一方面要將平臺的數據和計算能力以標準化的API接口開放出去,應用系統可以基于這些接口來快速開發應用和支撐應用的運行。
數據處理算法庫提供大量的基于批處理、內存、流式計算的算法模型,這些算法模型有一些是大數據平臺內置的通用性算法模型,也支持用戶自定義上傳算法包,數據處理算法庫的主要作用是為大數據平臺提供數據分析和挖掘的能力。用戶根據所需選擇合適的算法,或者基于自己定義的算法包,新建計算作業,由作業管理中的資源管理系統來分配和調度計算資源環境,在環境中加載算法庫完成數據計算和處理。除此外,數據處理算法庫還包括數據抽取算法、數據檢索算法等其他計算框架的算法。
大數據平臺支持的抽取工具包括Kettle、Sqoop、Flume、等。其中Kettle用于抽取各業務系統的結構化數據大數據數據倉庫,Sqoop用于抽取結構化數據到Hadoop平臺,Flume用于抽取非結構化數據到Hadoop平臺。根據選擇的數據源的類型,平臺自動為數據源分配不同的抽取工具進行抽取,最大化對數據源的抽取效率。
支持定制化的數據抽取,實現對數據源的靈活管理。在抽取之前,大數據平臺支持配置抽取數據源的哪些數據,并提供資源目錄展示數據源的數據結構信息以方便選擇。
平臺的數據抽取可根據預定的數據匯集策略,對不同數據源的數據類型進行分別匯集,分別存儲,也可以根據數據量大小、運算要求通過數據直連或數據服務總線接入。對于非結構化數據、半結構化數據,平臺使用HDFS進行存儲;對于結構化數據,平臺使用具有結構化特征的HBase進行存儲。
平臺的統一監控體系對數據匯聚的全流程進行監控,包括數據源狀態的監控、數據抽取任務的執行狀態、數據抽取作業的資源占用情況、數據存儲的完整性等。
大數據平臺支持的抽取工具包括Kettle、Sqoop、Flume、等。其中Kettle用于抽取各業務系統的結構化數據大數據數據倉庫,Sqoop用于抽取結構化數據到Hadoop平臺,Flume用于抽取非結構化數據到Hadoop平臺。根據選擇的數據源的類型,平臺自動為數據源分配不同的抽取工具進行抽取,最大化對數據源的抽取效率。
支持定制化的數據抽取,實現對數據源的靈活管理。在抽取之前,大數據平臺支持配置抽取數據源的哪些數據,并提供資源目錄展示數據源的數據結構信息以方便選擇。
平臺的數據抽取可根據預定的數據匯集策略,對不同數據源的數據類型進行分別匯集,分別存儲,也可以根據數據量大小、運算要求通過數據直連或數據服務總線接入。對于非結構化數據、半結構化數據,平臺使用HDFS進行存儲;對于結構化數據,平臺使用具有結構化特征的HBase進行存儲。
平臺的統一監控體系對數據匯聚的全流程進行監控,包括數據源狀態的監控、數據抽取任務的執行狀態、數據抽取作業的資源占用情況、數據存儲的完整性等。
大數據平臺支持的抽取工具包括Kettle、Sqoop、Flume、等。其中Kettle用于抽取各業務系統的結構化數據大數據數據倉庫,Sqoop用于抽取結構化數據到Hadoop平臺,Flume用于抽取非結構化數據到Hadoop平臺。根據選擇的數據源的類型,平臺自動為數據源分配不同的抽取工具進行抽取,最大化對數據源的抽取效率。
支持定制化的數據抽取,實現對數據源的靈活管理。在抽取之前,大數據平臺支持配置抽取數據源的哪些數據,并提供資源目錄展示數據源的數據結構信息以方便選擇。
平臺的數據抽取可根據預定的數據匯集策略,對不同數據源的數據類型進行分別匯集,分別存儲,也可以根據數據量大小、運算要求通過數據直連或數據服務總線接入。對于非結構化數據、半結構化數據,平臺使用HDFS進行存儲;對于結構化數據,平臺使用具有結構化特征的HBase進行存儲。
平臺的統一監控體系對數據匯聚的全流程進行監控,包括數據源狀態的監控、數據抽取任務的執行狀態、數據抽取作業的資源占用情況、數據存儲的完整性等。