問答(QA)是自然語言處理社區(qū)中一個有吸引力和挑戰(zhàn)性的領域。目前已經提出了各種算法,并且構建了不同主題和不同任務形式的基準數據集。問答軟件也已經被廣泛應用在人們的日常生活中。然而,目前面向QA軟件的測試主要是基于參考的形式進行的,測試用例的預期輸出(標簽)需要在測試之前利用大量的人力進行標注。因此,無論是在軟件的使用期間開展即時測試,或是在大量未標記的真實數據上進行擴展的測試都是不可行的,這使得當前問答軟件的測試并不靈活和充分。謝曉園教授課題組論文“Testing Your Question Answering Software via Asking Recursively”提出了一種基于三條蛻變關系的問答軟件測試方法QAASKER。QAASKER不需要標注標簽,而是通過檢查問答軟件在基于相同知識遞歸提問的多個問題上的行為,對問答軟件進行測試。實驗結果表明,在不使用任何預先標注標簽的情況下,QAASKER可以在80%以上的有效測試用例中發(fā)現錯誤。在最先進的問答軟件上揭示了各種問題,特別是在跨數據集的問題形式上泛化能力的有限。
論文正文詳見附件。