功能介紹
DLI用(yong)戶可(ke)以通過可(ke)視化界面、Restful API、JDBC、Beeline等多種接(jie)入方式(shi)對云上RDS和(he)DWS等異構數據(ju)源進行查詢分(fen)析,數據(ju)格式(shi)兼容CSV、JSON、Parquet和(he)ORC主流數據(ju)格式(shi)。
三大基本功能
- SQL作業支持SQL查詢功能:可為用戶提供標準的SQL語句。
- Flink作業支持Flink SQL在線分析功能:支持Window、Join等聚合函數、地理函數、CEP函數等,用SQL表達業務邏輯,簡便快捷實現業務。
- Spark作業提供全托管式Spark計算特性:用戶可通過交互式會話(session)和批處理(batch)方式提交計算任務,在全托管Spark隊列上進行數據分析。
多數據源分析
- Spark跨源連接:可通過DLI訪問DWS,RDS和CSS等數據源。
- Flink跨源支持與多種云服務連通,形成豐富的流生態圈。數據湖探索的流生態分為云服務生態和開源生態:
- 云服務生態:數據湖探索在Flink SQL中支持與其他服務的連通。用戶可以直接使用SQL從這些服務中讀寫數據。
- 開源生態:通過增強型跨源連接建立與其他VPC的網絡連接后,用戶可以在數據湖探索的租戶獨享隊列中訪問所有Flink和Spark支持的數據源與輸出源,如Kafka、Hbase、ElasticSearch等。
存算分離
用戶將數據存(cun)儲到OBS后(hou),DLI可以直接和(he)(he)OBS對接進(jin)行(xing)數據分析。存(cun)算分離的架構(gou)下,使(shi)得存(cun)儲資源和(he)(he)計算資源可以分開申請和(he)(he)計費,降(jiang)低了(le)成(cheng)本并提高了(le)資源利(li)用率。
存算分離場景下(xia),DLI支持(chi)OBS在(zai)創建桶時數據冗余策略選擇單AZ或(huo)者多AZ存儲,兩(liang)種(zhong)存儲策略區別如下(xia):
- 選擇多AZ存儲,數據將冗余存儲至多個AZ中,可靠性更高。選擇多AZ存儲的桶,數據將存儲在同一區域的多個不同AZ。當某個AZ不可用時,仍然能夠從其他AZ正常訪問數據,適用于對可靠性要求較高的數據存儲場景。建議優選使用多AZ存儲的策略。
- 選擇單AZ存儲,數據僅存儲在單個AZ中,但相比多AZ更加便宜。
DLI核心引擎:Spark+Flink
- Spark是用于大規模數據處理的統一分析引擎,聚焦于查詢計算分析。DLI在開源Spark基礎上進行了大量的性能優化與服務化改造,不僅兼容Apache Spark生態和接口,性能較開源提升了2.5倍,在小時級即可實現EB級數據查詢分析。
- Flink是一款分布式的計算引擎,可以用來做批處理,即處理靜態的數據集、歷史的數據集;也可以用來做流處理,即實時地處理一些實時數據流,實時地產生數據的結果。DLI在開源Flink基礎上進行了特性增強和安全增強,提供了數據處理所必須的Stream SQL特性。
DLI服務架構:Serverless
DLI是(shi)無服務器化(hua)的大數(shu)據(ju)查詢分析服務,其優(you)勢在于:
- 自動擴縮容:根據業務負載,對計算資源進行預估和自動擴縮容。
如何訪問DLI
服(fu)(fu)(fu)務(wu)平臺(tai)提(ti)供(gong)了(le)Web化的服(fu)(fu)(fu)務(wu)管(guan)理平臺(tai),既可(ke)以通過管(guan)理控(kong)制臺(tai)和(he)基于(yu)HTTPS請求的API(Application programming interface)管(guan)理方式(shi)來(lai)訪問DLI,又(you)可(ke)以通過JDBC客(ke)戶端連接(jie)DLI服(fu)(fu)(fu)務(wu)端。
- 管理控制臺方式
提交SQL作(zuo)業(ye)、Spark作(zuo)業(ye)或Flink作(zuo)業(ye),均可(ke)以使用管理控制臺方式(shi)訪(fang)問DLI服務(wu)。
- API方式
如(ru)果(guo)用戶需要(yao)將云平臺上的DLI服(fu)(fu)務集成到第(di)三(san)方系統,用于二次(ci)開發(fa),可以使用API方式訪問DLI服(fu)(fu)務。