您的位置: 首頁 >互聯(lián)網(wǎng) >

從期刊文章中提取關(guān)鍵信息的web應(yīng)用程序

2020-06-10 15:07:59 編輯: 來源:
導(dǎo)讀 學(xué)術(shù)論文通常會涉及到各個領(lǐng)域的新突破和有趣的理論。然而,這些文章中的大部分都是用專業(yè)術(shù)語和技術(shù)語言寫的,只有熟悉特定研究領(lǐng)域的讀者才能理解。 因此,非專業(yè)讀者通常無法理解科學(xué)文章,除非它們是經(jīng)過策劃的,并由理解其中概念和思想的第三方更容易理解??紤]到這一點(diǎn),一個研究小組在得克薩斯高級計算中心德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(俄勒岡州立大學(xué))和美國社會的植物生物學(xué)家(ASPB)

學(xué)術(shù)論文通常會涉及到各個領(lǐng)域的新突破和有趣的理論。然而,這些文章中的大部分都是用專業(yè)術(shù)語和技術(shù)語言寫的,只有熟悉特定研究領(lǐng)域的讀者才能理解。

因此,非專業(yè)讀者通常無法理解科學(xué)文章,除非它們是經(jīng)過策劃的,并由理解其中概念和思想的第三方更容易理解??紤]到這一點(diǎn),一個研究小組在得克薩斯高級計算中心德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(俄勒岡州立大學(xué))和美國社會的植物生物學(xué)家(ASPB)已經(jīng)著手開發(fā)一種工具,它可以自動提取重要的詞語和術(shù)語研究論文以提供有用的定義和增強(qiáng)可讀性。

“我們的項目是為了提高期刊文章的可讀性,”TACC團(tuán)隊的負(fù)責(zé)人徐維佳告訴TechXplore。這是生物策展人、期刊出版商和計算機(jī)科學(xué)家的共同努力,旨在開發(fā)一種網(wǎng)絡(luò)服務(wù),可以識別并使作者策展期刊出版物中使用的重要術(shù)語。然后,這些術(shù)語和詞匯被附在期刊文章的結(jié)尾,以增加讀者的可訪問性?!?/p>

Xu和他的同事開發(fā)了一個可擴(kuò)展的框架,可以用來從文檔中提取信息。然后,他們在一個名為DIVE(領(lǐng)域信息詞匯提取)的web服務(wù)中實(shí)現(xiàn)了這個框架,并將其與ASPB的期刊出版管道集成在一起。與現(xiàn)有的提取領(lǐng)域信息的工具不同,它們的框架結(jié)合了幾種方法,包括本體指導(dǎo)提取、基于規(guī)則的提取、自然語言處理(NLP)和深度學(xué)習(xí)技術(shù)。

“不同模型得到的結(jié)果會被存儲在一個中央數(shù)據(jù)庫中,”徐解釋說?!拔覀冞€設(shè)計了一個web服務(wù),允許用戶管理提取結(jié)果。web服務(wù)與ASPB的生產(chǎn)發(fā)布管道集成在一起。

一旦期刊文章的預(yù)覽版本被提交并進(jìn)入ASPB的管道,手稿就會自動輸入到DIVE,后者對其進(jìn)行處理并生成一個URL,通過這個URL,作者將能夠訪問DIVE的處理結(jié)果。論文作者在正式提交論文之前,需要訪問提供的鏈接,查看提取的信息。

“作者需要訪問潛水地點(diǎn),審查提取結(jié)果,并最終批準(zhǔn)文章末尾的信息列表,”徐說。DIVE還會跟蹤作者的糾正,以改進(jìn)未來的提取任務(wù)。目前,還沒有其他期刊出版商采用類似的方法,并將其整合到自己的出版渠道中?!?/p>

在分析過程中以及從文件中提取關(guān)鍵數(shù)據(jù)時,研究人員開發(fā)的框架使用了幾種技術(shù)。這使得它能夠比其他方法捕獲更多的信息,比如ABNER(一種生物醫(yī)學(xué)命名的實(shí)體識別器),它是一種用于分子生物學(xué)文本挖掘的開源軟件工具,只能提取通用術(shù)語(例如基因和蛋白質(zhì))。與DIVE相反,ABNER只是基于條件隨機(jī)場(CRFs),一種統(tǒng)計建模方法,在模式識別和機(jī)器學(xué)習(xí)應(yīng)用中常用。

“我們項目的一個主要貢獻(xiàn)是,它有助于建立數(shù)據(jù)集和模型,可以從作者的出版物中推斷他們的研究興趣,”徐說?!拔覀兊捻椖靠梢允垢鼜V泛的生物研究人員受益。對于作者來說,關(guān)鍵信息的提取和包含可以增加他們文章的可訪問性?!?/p>

Xu和他的同事Amit Gupta評估了他們的框架,并將其性能與其他信息提取工具(包括ABNER)進(jìn)行了比較。他們的發(fā)現(xiàn)表明,使用多種方法,包括深度學(xué)習(xí),潛水獲得的分?jǐn)?shù)比其他預(yù)先訓(xùn)練的僅基于CRFs的模型更高的精度。有趣的是,還可以不斷地更新DIVE框架,因?yàn)榭梢噪S時向其添加額外的提取模型。

DIVE web應(yīng)用程序不僅能讓非專業(yè)讀者更好地理解學(xué)術(shù)論文,還能幫助他們識別符合自己興趣的論文。另一方面,研究人員可以使用DIVE來了解特定的研究領(lǐng)域,以及了解與他們感興趣的領(lǐng)域相關(guān)的新術(shù)語和趨勢。最后,應(yīng)用程序生成的信息還可以指導(dǎo)生物策展人的決策和數(shù)據(jù)收集過程。

“我們將繼續(xù)探索兩個方向,”徐說?!耙环矫妫覀冋谘芯啃碌姆椒▉斫Y(jié)合我們的信息提取模型來提高性能。另一方面,我們也在努力擴(kuò)大我們的服務(wù),向更多的用戶社區(qū)和期刊出版商提供這項服務(wù)?!?/p>



免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。