近日,彭智勇教授研究組一篇論文,題目為“FastDatasetSearchwithEarthMover’s Distance”,被數據庫領域A類會議International Conference on Very Large Databases (VLDB 2022)錄用。該論文第一作者為2020級博士生楊文哲,通訊作者為王勝副教授和彭智勇教授。
該論文主要解決了空間數據集的快速搜索問題。目前數據集搜索已經受到了學者們的廣泛關注與研究,但是現有的搜索引擎主要還是針對關鍵詞的查詢。為了提供多樣化的查詢,“范例查詢”這一新型查詢方式被提出,即用戶向數據庫中輸入一個感興趣的示例數據,并快速查找到與輸入相似的數據。本篇論文主要關注空間數據集中的快速查詢,該研究有許多重要的現實應用,如自動駕駛運動預測,數據增強等場景。現有的空間數據集相似度查詢方法大多是基于最小邊界矩形重疊或者豪斯多夫距離等進行的,有一定的局限性。為了解決現有空間數據集的快速相似度查詢問題,本文提出了一套基于推土距離(Earth Mover’s Distance, EMD)的雙重界限框架(Dual-Bound Filtering, DBF)。具體來說,論文通過空間區域進行網格劃分,設計了空間數據壓縮存儲數據結構,減少了存儲空間的開銷。此外,為了應對多種網格尺寸的要求,提出了基于pooling的方法大大縮短了數據建模時間。為了實現查詢加速,該論文設計了兩層的過濾框架,以實現最大的過濾比例。首先在粗粒度過濾階段,文章設計了一個新型的樹狀索引和基于pooling的EMD距離上下界;通過對索引樹進行深度優先遍歷,計算查詢數據集與樹節點之間的上下界,對不相似的數據集進行批量過濾。在細粒度查詢階段,文章提出了一個更緊的迭代約束傳輸EMD界限(Tighter Iterative Constrained Transfers,TICT),進一步減少了候選集的數量。文章通過在4個真實數據集上進行大量實驗并與現有方法進行多方面對比,證明了文章所提出算法與框架的有效性。更多細節大家可以進一步閱讀原文(論文鏈接:https://vldb.org/pvldb/vol15/p2517-yang.pdf)。

國際頂級數據庫學術會議VLDB 2022于9月5日在澳大利亞悉尼開幕。VLDB作為數據庫領域的三大頂級會議之一,每年吸引全球頂尖研究機構投稿,收錄研究機構以及科技企業在數據庫領域最前沿的研究成果,在數據庫領域有著舉足輕重的地位。本次VLDB2022會議將舉辦超過250場研究講座、11場主題演講和受邀演講、2個專家小組會議、9個專題報告、40多個演示和10個研討會。它涵蓋了數據管理、數據庫架構、圖形數據管理、數據隱私和安全、數據挖掘、機器學習、人工智能和數據庫系統研究等問題,這些都是21世紀新興應用的基本技術基石。