2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
每天,在社交媒體和其他平臺上發(fā)布數百萬篇文章,從瀏覽網頁的用戶那里獲得大量點擊和分享。其中許多文章包含有用的信息,如果提取,可用于編譯知識數據庫或提供知識檢索和問答服務。
中國科學院(CAS)的研究人員開發(fā)了一種基于卷積神經網絡(CNN)的模型,用于提取知識淵博的片段和注釋文檔。他們的方法在arXiv上發(fā)表的論文中概述,盡管經過較??短時間的培訓,但發(fā)現其效果優(yōu)于現有工具。
在他們的論文中,研究人員將術語“知識淵博的文檔”定義為“包含多個知識淵博的片段的文檔,這些片段描述了實體的概念,屬性或實體之間的關系”。到目前為止,大多數知識庫,如YAGO或DBpedia,都基于Wikipedia,WordNet,GeoNames和其他在線資源提取知識。但是,與社交媒體平臺相比,這些資源通常包含有限且不靈活的信息。
研究人員在他們的論文中寫道:“另一個最近的知識庫Probase擁有270萬個概念,它是從迄今為止最大的語料庫中自動獲取的,其中包括從16.8億個網頁中提取的3.26億個知識淵博的句子。” “然而,這些句子只能通過赫斯特模式提取。為了提取更多知識淵博的片段以構建更全面的知識庫,需要基于語義的方法來補充以前基于模式的方法。”
知識淵博的片段和文章也可用于開發(fā)知識檢索和問答服務。例如,這些服務將回答正在尋找特定問題幫助的用戶提出的問題??紤]到這些應用,CAS的研究人員開始開發(fā)基于CNN的模型,該模型可以分析文檔的語義,確定它是否有用,并從中提取知識豐富的信息片段。
“具體來說,我們提出SSNN,這是一個基于CNN的聯(lián)合模型,用于協(xié)同理解不同領域中文檔的抽象概念,并判斷文檔是否具有知識性,”研究人員在他們的論文中解釋道。“更詳細地說,SSNN的網絡結構是'低級共享,高級分裂',其中低級別層為不同域共享,而CNN之外的高級層分別訓練以感知不同領域的差異。“
研究人員設計的模型提供了一種端到端的解決方案來注釋文檔,這些解決方案不需要進行大量耗時的特征工程。他們還開發(fā)了手動功能并訓練了SVM分類器模型來完成任務。
研究人員評估了他們的模型在微信開發(fā)的中文消息,社交媒體和移動支付平臺微信三個內容領域的真實文檔數據集上的有效性。他們的研究結果非常有希望,SSNN的表現始終優(yōu)于其他CNN模型,同時通過更短,更有效的培訓流程節(jié)省了時間和內存消耗。
研究人員在他們的論文中寫道:“與構建多個特定領域的CNN相比,這種聯(lián)合模型不僅可以大大節(jié)省訓練時間,而且可以明顯提高預測精度。” “在Wechat公共平臺的真實數據集中證明了所提模型的優(yōu)越性。”
將來,本研究中提出的SSNN 模型可用于構建更全面的知識數據庫。它還可以幫助開發(fā)創(chuàng)新服務,以實時快速和詳盡地回答用戶查詢。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。