從期刊文章中提取關(guān)鍵信息的web應(yīng)用程序

2020-06-10 15:07:59 編輯：來源：

導(dǎo)讀學(xué)術(shù)論文通常會(huì)涉及到各個(gè)領(lǐng)域的新突破和有趣的理論。然而，這些文章中的大部分都是用專業(yè)術(shù)語和技術(shù)語言寫的，只有熟悉特定研究領(lǐng)域的讀者才能理解。因此，非專業(yè)讀者通常無法理解科學(xué)文章，除非它們是經(jīng)過策劃的，并由理解其中概念和思想的第三方更容易理解。考慮到這一點(diǎn),一個(gè)研究小組在得克薩斯高級(jí)計(jì)算中心德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(俄勒岡州立大學(xué))和美國(guó)社會(huì)的植物生物學(xué)家(ASPB)

學(xué)術(shù)論文通常會(huì)涉及到各個(gè)領(lǐng)域的新突破和有趣的理論。然而，這些文章中的大部分都是用專業(yè)術(shù)語和技術(shù)語言寫的，只有熟悉特定研究領(lǐng)域的讀者才能理解。

因此，非專業(yè)讀者通常無法理解科學(xué)文章，除非它們是經(jīng)過策劃的，并由理解其中概念和思想的第三方更容易理解?？紤]到這一點(diǎn),一個(gè)研究小組在得克薩斯高級(jí)計(jì)算中心德克薩斯大學(xué)奧斯汀分校(TACC),俄勒岡州立大學(xué)(俄勒岡州立大學(xué))和美國(guó)社會(huì)的植物生物學(xué)家(ASPB)已經(jīng)著手開發(fā)一種工具,它可以自動(dòng)提取重要的詞語和術(shù)語研究論文以提供有用的定義和增強(qiáng)可讀性。

“我們的項(xiàng)目是為了提高期刊文章的可讀性，”TACC團(tuán)隊(duì)的負(fù)責(zé)人徐維佳告訴TechXplore。這是生物策展人、期刊出版商和計(jì)算機(jī)科學(xué)家的共同努力，旨在開發(fā)一種網(wǎng)絡(luò)服務(wù)，可以識(shí)別并使作者策展期刊出版物中使用的重要術(shù)語。然后，這些術(shù)語和詞匯被附在期刊文章的結(jié)尾，以增加讀者的可訪問性。”

Xu和他的同事開發(fā)了一個(gè)可擴(kuò)展的框架，可以用來從文檔中提取信息。然后，他們?cè)谝粋€(gè)名為DIVE(領(lǐng)域信息詞匯提取)的web服務(wù)中實(shí)現(xiàn)了這個(gè)框架，并將其與ASPB的期刊出版管道集成在一起。與現(xiàn)有的提取領(lǐng)域信息的工具不同，它們的框架結(jié)合了幾種方法，包括本體指導(dǎo)提取、基于規(guī)則的提取、自然語言處理(NLP)和深度學(xué)習(xí)技術(shù)。

“不同模型得到的結(jié)果會(huì)被存儲(chǔ)在一個(gè)中央數(shù)據(jù)庫中，”徐解釋說?！拔覀冞€設(shè)計(jì)了一個(gè)web服務(wù)，允許用戶管理提取結(jié)果。web服務(wù)與ASPB的生產(chǎn)發(fā)布管道集成在一起。

一旦期刊文章的預(yù)覽版本被提交并進(jìn)入ASPB的管道，手稿就會(huì)自動(dòng)輸入到DIVE，后者對(duì)其進(jìn)行處理并生成一個(gè)URL，通過這個(gè)URL，作者將能夠訪問DIVE的處理結(jié)果。論文作者在正式提交論文之前，需要訪問提供的鏈接，查看提取的信息。

“作者需要訪問潛水地點(diǎn)，審查提取結(jié)果，并最終批準(zhǔn)文章末尾的信息列表，”徐說。DIVE還會(huì)跟蹤作者的糾正，以改進(jìn)未來的提取任務(wù)。目前，還沒有其他期刊出版商采用類似的方法，并將其整合到自己的出版渠道中?！?/p>

在分析過程中以及從文件中提取關(guān)鍵數(shù)據(jù)時(shí)，研究人員開發(fā)的框架使用了幾種技術(shù)。這使得它能夠比其他方法捕獲更多的信息，比如ABNER(一種生物醫(yī)學(xué)命名的實(shí)體識(shí)別器)，它是一種用于分子生物學(xué)文本挖掘的開源軟件工具，只能提取通用術(shù)語(例如基因和蛋白質(zhì))。與DIVE相反，ABNER只是基于條件隨機(jī)場(chǎng)(CRFs)，一種統(tǒng)計(jì)建模方法，在模式識(shí)別和機(jī)器學(xué)習(xí)應(yīng)用中常用。

“我們項(xiàng)目的一個(gè)主要貢獻(xiàn)是，它有助于建立數(shù)據(jù)集和模型，可以從作者的出版物中推斷他們的研究興趣，”徐說?！拔覀兊捻?xiàng)目可以使更廣泛的生物研究人員受益。對(duì)于作者來說，關(guān)鍵信息的提取和包含可以增加他們文章的可訪問性?！?/p>

Xu和他的同事Amit Gupta評(píng)估了他們的框架，并將其性能與其他信息提取工具(包括ABNER)進(jìn)行了比較。他們的發(fā)現(xiàn)表明，使用多種方法，包括深度學(xué)習(xí)，潛水獲得的分?jǐn)?shù)比其他預(yù)先訓(xùn)練的僅基于CRFs的模型更高的精度。有趣的是，還可以不斷地更新DIVE框架，因?yàn)榭梢噪S時(shí)向其添加額外的提取模型。

DIVE web應(yīng)用程序不僅能讓非專業(yè)讀者更好地理解學(xué)術(shù)論文，還能幫助他們識(shí)別符合自己興趣的論文。另一方面，研究人員可以使用DIVE來了解特定的研究領(lǐng)域，以及了解與他們感興趣的領(lǐng)域相關(guān)的新術(shù)語和趨勢(shì)。最后，應(yīng)用程序生成的信息還可以指導(dǎo)生物策展人的決策和數(shù)據(jù)收集過程。

“我們將繼續(xù)探索兩個(gè)方向，”徐說。“一方面，我們正在研究新的方法來結(jié)合我們的信息提取模型來提高性能。另一方面，我們也在努力擴(kuò)大我們的服務(wù)，向更多的用戶社區(qū)和期刊出版商提供這項(xiàng)服務(wù)。”

標(biāo)簽： Web