操作場景
DLI可以查詢(xun)存儲在OBS中的數據,本節(jie)操(cao)作介(jie)紹使用(yong)DLI提交Spark Jar進行(xing)實時計(ji)算的操(cao)作步驟。
操作流程
使(shi)用DLI提(ti)交Spark作(zuo)業進行實時計算。基本流程如下:
1.上傳數據(ju)至(zhi)OBS
2.創建隊列
3.創建程序包
4.提交Spark作業
上傳數據至OBS
開發Spark Jar作(zuo)業程(cheng)序(xu),編譯并打包為(wei)“spark-examples.jar”。參(can)考以下(xia)操作(zuo)步驟上傳該作(zuo)業程(cheng)序(xu)。
提(ti)交Spark作業之(zhi)前(qian),需(xu)要在OBS中上(shang)傳數據文件(jian)。
1.登錄管理控制臺
2.在(zai)服務列表中(zhong),單(dan)擊“存(cun)(cun)儲”中(zhong)的(de)“對(dui)象存(cun)(cun)儲服務OBS”,進(jin)入OBS管理(li)控制(zhi)臺頁面。
3.創建桶,這里以(yi)桶名“dli-test-obs01”為(wei)例。
a. 單擊“創建桶”。
b. 進入“創建(jian)桶”頁(ye)面,輸入“桶名稱(cheng)”。其他參(can)數保持默認值或根據需要選(xuan)擇(ze)。
說明創建OBS桶時,需(xu)要選擇(ze)與DLI管理控制臺(tai)相同的區(qu)域,不可跨區(qu)域執行操作(zuo)。
c. 單擊“立即創建”。
4.單擊所(suo)建桶“dli-test-obs01”,進入“對(dui)象(xiang)”頁面(mian)。
5.選(xuan)(xuan)擇左側列表中的“對(dui)(dui)象(xiang)”,選(xuan)(xuan)擇“上(shang)傳(chuan)對(dui)(dui)象(xiang)”,將需要上(shang)傳(chuan)的文(wen)件,例如“spark-examples.jar”上(shang)傳(chuan)到(dao)指定目錄,單擊“確定”。
例(li)如(ru),文件(jian)上傳成功后,待(dai)分析的文件(jian)路徑為“obs://dli-test-obs01/spark-examples.jar”。
說明
關于OBS管理控制臺更多操作請參考《對象存儲服務控制臺指南》。
OBS上傳文件指導,請參見《OBS工具指南》。
針對大文件(jian)場景(jing),由(you)于OBS管理控(kong)制臺對文件(jian)大小和(he)數量(liang)限制較(jiao)多,所以推薦使用(yong)OBS工具上傳大文件(jian),如OBS Browser+上傳。
OBS Browser+是一(yi)個(ge)比較(jiao)常用的圖形化工(gong)具,,支(zhi)持(chi)完善的桶管理和對象管理操(cao)作(zuo)。推薦使用此(ci)工(gong)具創建桶或(huo)上傳對象。
創建隊列
第一次提交Spark作(zuo)業,需要先創建(jian)隊列(lie),例如創建(jian)名為“sparktest”的隊列(lie),隊列(lie)類型選擇為“通用隊列(lie)”。
1.登錄DLI管理控制臺。
2.在(zai)DLI管(guan)(guan)理(li)控制(zhi)臺的左(zuo)側導航欄(lan)中,選擇“資源管(guan)(guan)理(li) > 隊列管(guan)(guan)理(li)”。
3.單擊(ji)“隊(dui)列(lie)(lie)管理”頁面(mian)右上(shang)角(jiao)“創建(jian)隊(dui)列(lie)(lie)”進行創建(jian)隊(dui)列(lie)(lie)。
4.創建名為“sparktest”的隊列,隊列類型選擇為“通用隊列”。創建隊列詳細介紹請參考《數據湖探索用戶指南》>《創建隊列》。
5.單擊“立即創建”,完成隊列創建。
創建程序包
提交Spark作業之(zhi)前需要(yao)創(chuang)建程序包,例如“spark-examples.jar”。
1.在管(guan)理控(kong)制臺左側,單擊“數據管(guan)理”>“程序包管(guan)理”。
2.在(zai)“程序包管理”頁面,單擊右上角(jiao)“創建”可創建程序包。
3.在“創建程序包”對話框,“包類型”選擇“JAR”,“OBS路徑”選擇(ze)步驟(zou)2:上傳(chuan)數據至OBS中“spark-examples.jar”的包路徑,“分(fen)(fen)組設置”參(can)數選擇(ze)為“不分(fen)(fen)組”。
4.單擊“確定”,完成創建程序包。
程序包(bao)創建成功(gong)后,您可以在“程序包(bao)管理”頁面查看和(he)選擇使(shi)用對應(ying)的包(bao)。
創建程序包詳細介紹請參考《數據湖探索用戶指南》>《創建程序包》。
提交Spark作業
1.在(zai)DLI管理控制(zhi)臺,單擊(ji)左(zuo)側(ce)導航欄中的“作(zuo)(zuo)業管理”>“Spark作(zuo)(zuo)業”,單擊(ji)“創建作(zuo)(zuo)業”,進入創建Spark作(zuo)(zuo)業頁面。
2.在(zai)Spark作(zuo)業編(bian)輯頁面中,“所屬隊列”選擇(ze)步驟(zou)4:創(chuang)建隊列中創(chuang)建的(de)隊列,“應用程序(xu)(xu)”選擇(ze)步驟(zou)5:創(chuang)建程序(xu)(xu)包(bao)創(chuang)建的(de)程序(xu)(xu)包(bao)。
其他參數請參考《數據湖探索用戶指南》>《創建Spark作業》中關于Spark作業編輯頁面的說(shuo)明。
3.單擊Spark作(zuo)業(ye)編輯頁面右上方(fang)“執(zhi)行”,閱讀并同(tong)意隱私協議,單擊“確(que)定”。提(ti)(ti)交作(zuo)業(ye),頁面顯示(shi)“作(zuo)業(ye)提(ti)(ti)交成功”。
4.(可(ke)選)可(ke)到“作(zuo)業管理”>“Spark作(zuo)業”頁面(mian)查看提交作(zuo)業的狀(zhuang)態及(ji)日志。
說明在(zai)DLI管理控制臺第一次單(dan)擊(ji)“執行”操(cao)作(zuo)時,需要閱讀隱私(si)協議,同意確定后(hou),后(hou)續操(cao)作(zuo)將不會再(zai)提示(shi)。