您的位置: 首頁 >科技 >

用于從期刊文章中提取關(guān)鍵信息的Web應(yīng)用程序

2019-08-26 17:12:12 編輯: 來源:
導(dǎo)讀 學(xué)術(shù)論文通常包含有關(guān)各種領(lǐng)域的新突破和有趣理論的說明。然而,這些文章中的大部分是使用行話和技術(shù)語言編寫的,只有熟悉該特定研究領(lǐng)域的

學(xué)術(shù)論文通常包含有關(guān)各種領(lǐng)域的新突破和有趣理論的說明。然而,這些文章中的大部分是使用行話和技術(shù)語言編寫的,只有熟悉該特定研究領(lǐng)域的讀者才能理解。

因此,非專業(yè)讀者通常無法理解科學(xué)文章,除非他們被策劃并且更容易被理解其中包含的概念和想法的第三方訪問??紤]到這一點(diǎn),德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(OSU)和美國植物生物學(xué)家協(xié)會(ASPB)的德克薩斯高級計算中心的一組研究人員已著手開發(fā)一種工具,可以從研究論文中自動提取重要的短語和術(shù)語,以提供有用的定義并增強(qiáng)其可讀性。

“我們的項目的動機(jī)是需要提高期刊文章的可讀性,”TACC團(tuán)隊負(fù)責(zé)人Weijia Xu告訴TechXplore。“這是生物策展人,期刊出版商和計算機(jī)科學(xué)家之間的共同努力,旨在開發(fā)一種能夠識別并使作者能夠完成期刊出版物中使用的重要術(shù)語的網(wǎng)絡(luò)服務(wù)。術(shù)語和文字隨后附在期刊文章的末尾。為了增加讀者的可訪問性。“

Xu和他的同事開發(fā)了一個可擴(kuò)展的框架,可用于從文檔中提取信息。然后,他們在名為DIVE(域信息詞匯表提取)的Web服務(wù)中實(shí)現(xiàn)了該框架,并將其與ASPB的日志發(fā)布管道集成。與現(xiàn)有的用于提取域信息的工具不同,它們的框架結(jié)合了幾種方法,包括本體引導(dǎo)提取,基于規(guī)則的提取,自然語言處理(NLP)和深度學(xué)習(xí)技術(shù)。

“然后,不同模型獲得的結(jié)果存儲在一個集中的數(shù)據(jù)庫中,”Xu解釋道。“我們還設(shè)計了一個Web服務(wù),允許用戶策劃提取結(jié)果.Web 服務(wù)與ASPB的生產(chǎn)發(fā)布管道集成。”

一旦提交了期刊文章的預(yù)覽版本并進(jìn)入ASPB的管道,該稿件將自動提供給DIVE,后者處理它并生成一個URL,作者可以使用該URL訪問DIVE的處理結(jié)果。要求該論文的作者訪問所提供的鏈接,并在他/她能夠正式提交論文之前審查所提取的信息。

“作者需要訪問潛水網(wǎng)站來審查提取結(jié)果,并最終批準(zhǔn)將在文章末尾列入的信息列表,”徐說。“DIVE還跟蹤作者更正以改進(jìn)未來的提取任務(wù)。目前,沒有其他期刊出版商采用類似的方法并將其與其出版管道相結(jié)合。”

在分析過程中以及從文檔中提取關(guān)鍵數(shù)據(jù)時,研究人員開發(fā)的框架使用了幾種技術(shù)。這使得它可以捕獲比其他方法更多的信息,例如ABNER(生物醫(yī)學(xué)命名實(shí)體識別器),它是用于分子生物學(xué)文本挖掘的開源軟件工具,其只能提取一般術(shù)語(例如基因和蛋白質(zhì))。與DIVE相反,ABNER僅基于條件隨機(jī)場(CRF),這是一種常用于模式識別和機(jī)器學(xué)習(xí)應(yīng)用的統(tǒng)計建模方法。

“我們項目的一個主要貢獻(xiàn)是,它有助于建立數(shù)據(jù)集和模型,可以從他們的出版物推斷出作者的研究興趣,”徐說。“我們的項目可以使更廣泛的生物研究人員受益。對于作者來說,提取和包含關(guān)鍵信息可以增加他們文章的可訪問性。”

Xu和他的同事Amit Gupta評估了他們的框架,并將其性能與其他信息提取工具(包括ABNER)的性能進(jìn)行了比較。他們的研究結(jié)果顯示,使用多種方法,包括深度學(xué)習(xí),DIVE獲得的精度得分高于僅基于CRF的其他預(yù)訓(xùn)練模型。有趣的是,DIVE框架也可以不斷更新,因為可以隨時添加其他提取模型。

DIVE Web應(yīng)用程序不僅允許非專業(yè)讀者更好地理解學(xué)術(shù)論文,還可以幫助他們識別符合其興趣的論文。另一方面,研究人員可以使用DIVE了解特定研究領(lǐng)域,以及了解與其感興趣領(lǐng)域相關(guān)的新術(shù)語和趨勢。最后,應(yīng)用程序生成的信息還可以指導(dǎo)生物學(xué)策展人的決策和數(shù)據(jù)收集過程。

“我們正在通過探索兩個方向來繼續(xù)我們的項目,”徐說。“一方面,我們正在研究與我們的信息提取模型相結(jié)合的新方法,以提高性能。另一方面,我們也試圖通過向其他用戶社區(qū)和期刊出版商提供服務(wù)來擴(kuò)展我們的服務(wù)。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。