日日干日日摸-日日干天天操-日日干天天草-日日干天天插-精品一区二区三区在线观看-精品一区二区三区在线观看l

437bwin必贏國際官網(集團)有限公司-SouG百科

學院新聞

珞珈圖騰實驗室在數據庫A類會議ICDE2022上發表學術論文

發布時間:2021-12-21     瀏覽量:

近日,數據庫領域A類會議IEEE International Conferences on Data Engineering(ICDE 2022)錄用彭智勇教授研究組一篇論文,題目是“A Resource-Aware Deep Cost Model for Big Data Query Processing”。博士生李巖是第一作者,該論文是在王黎維、王勝、彭智勇三位老師共同指導下完成的。

論文重點研究大數據處理引擎的查詢優化問題。大數據處理引擎Spark SQL的執行計劃和資源分配對查詢處理的效率影響很大。關系數據庫的代價模型的研究較為成熟,但它們并不適用于Spark SQL。首先,在關系數據庫中,總是假定修改后的基數會自動更正代價估計,而代價模型并不像基數估計那么重要。然而,對于大數據處理引擎來說,即使伴隨實時基數,代價模型的誤差仍然很大。此外,現有的代價模型考慮在固定的資源集上運行查詢,而Spark SQL運行在多個應用共享資源的云計算環境中。此外,現有的Spark SQL的代價模型仍然是基于手工制定的規則,無法捕捉資源對查詢計劃性能影響的復雜模式。因此,需要設計一個自動的、可學習的代價模型,以獲得實時資源和查詢執行計劃的最佳組合。與傳統的代價模型相比,可學習的代價模型可以很容易地定期更新并適應不同的集群。

為了解決上述問題,本文詳細分析了Spark SQL中資源對查詢執行計劃代價的影響并提出了一個資源感知深度學習模型RAAL(如下圖所示),該模型可以基于歷史數據自動預測查詢計劃的執行時間。本文基于查詢計劃樹嵌入查詢執行計劃,并從分配的資源中提取特征。然后訓練具有自適應注意機制的深度學習模型來預測查詢計劃的執行時間。實驗表明,與傳統的基于規則的優化方法和基于關系數據庫學習的優化方法相比,本文的深度代價模型在預測查詢計劃執行時間方面具有更高的準確性。更多細節大家可以進一步閱讀原文。

image.png

IEEE International Conferences on Data Engineering(ICDE 2022)是數據庫方向的三大頂級會議之一,該文的發表是學院在數據庫領域方向的重大研究成果。