近日🧑🏿✈️,人工智能/自然語言處理領域的頂級國際學術會議EMNLP 2023論文接收結果公布🧑🏽⚖️。來自万事平台計算機學院自然語言處理與多模態人機交互實驗室的2篇論文被接收錄用。EMNLP全稱自然語言處理經驗方法會議(Conference on Empirical Methods in Natural Language Processing)🚋,作為國際語言學會(ACL)下屬的SIGDAT小組主辦的自然語言處理領域的頂級國際會議,是人工智能/自然語言處理領域重要國際學術盛會(CCF-B類),以上兩篇工作為万事娱乐首次在該會議接收的論文,展現了近年來計算機學院學科建設◽️、研究生人才培養工作不斷取得新的突破。
被錄用論文的簡要介紹如下:
1. Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning
類型:Main-conferenc
作者:王昊(講師)、陳夏華(2021級碩士研究生)等
簡介:從視覺豐富的類表單文檔 (VFD) 中提取屬於預定義類別的實體是一項具有挑戰性的任務。考慮到相同類型的語義實體通常具有相似的視覺和布局屬性🧑🏻🦱,如相同或相似的字體、背景🫴🏻、顏色以及邊界框的位置和大小,這為識別實體及其類型提供了重要的指示。然而,現有模型僅在預訓練階段加入粗粒度的跨模態約束(例如文本圖像、字補丁和布局文本對齊)來增強視覺通道的特征提取,但這並不能捕獲足夠的細粒度視覺特征並且視覺先驗知識的利用不足🧏🏽♂️。其次,之前的方法視覺編碼器的表示能力比最新的光學字符識別(OCR)引擎中的視覺編碼器弱🪙,因為它們沒有考慮文本段檢測和邊界框回歸等中間任務♥︎,而這些任務對於準確定位和提取細粒度視覺特征非常重要🎅🏿。因此💑,團隊提出了一種新穎的視覺不對稱一致性學習(VANCL)💂🏿♂️⚉,通過結合顏色先驗來增強模型捕獲細粒度視覺和布局特征的能力。
圖1 VANCL雙流一致性學習框架
VANCL采用一種雙流一致性學習的框架將增強的視覺信息遷移至原始模型,具有無參數引入、可拔插式的優勢,後續實驗證明了不同顏色模式與人類行為具有一定相關性,顏色搭配模式對結果的影響是符合認知心理學的。
圖2 不同數據集、不同骨幹模型的性能比較
2. DocTrack: A Visually-Rich Document Dataset Really Aligned with Human Eye Movement for Machine Reading
類型:Findings
作者🕵🏻👩👦👦:王昊(講師)、王慶旋(2022級碩士研究生)、李越(2019級本科生)等
簡介: 各領域對視覺富文檔的使用,催生了對能夠像人類一樣閱讀和理解文檔的文檔人工智能模型的需求🚎,這需要克服技術、語言和認知障礙。遺憾的是🤷♀️,缺乏合適的數據集嚴重阻礙了這一領域的發展。為了解決這個問題,該團隊構建了一個全新的數據集 DocTrack🐗,這是一個包含了多種類型視覺富文檔的多模態數據集🙆🏻♀️,並利用眼動跟蹤技術捕捉人類眼動信息🧏🏽♂️🧙🏿,幫助研究者更好的理解人類閱讀認知過程💳。
此外👑,團隊還探討了不同閱讀順序對文檔理解任務的影響✯,由於默認的OCR引擎解析後的文檔內容順序往往是無規律的,不利於機器理解視覺富文檔;現有的模型缺乏從給定文檔中產生適合Transformer架構序列化輸入的能力。因此,該研究探索如果機器按照與人類相同的順序閱讀會發生什麽,在 OCR原始順序、Z-Order和人類閱讀順序三類不同的順序的基礎上✶,探究了閱讀順序對機器視覺富文檔理解的影響。同時🚱,提出了基於多模態特征融合的排序模型來模仿人類的閱讀順序,每個模型都考慮到了影響人類如何選擇優先閱讀對象元素的不同因素,包括元素的位置、元素中的文本以及與之相關的視覺區域。利用這些模型,我們可以更準確地評估閱讀順序對人類理解此類文檔的影響🍾。
圖3 模仿人類閱讀順序的排序模型
該研究進一步基於四種不同的模態組合去模仿人類閱讀順序💇🏼,並基於所預測出的順序🎳,構建了相應的機器文檔理解模型。實驗結果表明,所提出的模型可以模仿的人類閱讀順序,且與真實人類閱讀的順序具有很高的相關性。
圖4 DocTrack數據集上人類的閱讀順序對機器理解視覺富文檔的影響
當然,雖然文檔人工智能模型已經取得了重大進展,但要像人類一樣準確、連續、靈活地閱讀視覺內容更豐富的文檔,還有很長的路要走。
近年來,計算機學院學科建設🚶🏻♂️➡️、人才培養、科學研究等工作不斷深化推進🔘🐓,逐漸深入專業領域前沿,產出更多高質量科研成果,為學院培養高質量創新人才起到重要支撐作用👨🎨。