您的位置: 首頁 >互聯(lián)網 >

一個神經網絡 用于提取知識淵博的片段和文檔

2019-06-11 17:06:16 編輯: 來源:
導讀 每天,在社交媒體和其他平臺上發(fā)布數(shù)百萬篇文章,從瀏覽網頁的用戶那里獲得大量點擊和分享。其中許多文章包含有用的信息,如果提取,可用于

每天,在社交媒體和其他平臺上發(fā)布數(shù)百萬篇文章,從瀏覽網頁的用戶那里獲得大量點擊和分享。其中許多文章包含有用的信息,如果提取,可用于編譯知識數(shù)據(jù)庫或提供知識檢索和問答服務。

中國科學院(CAS)的研究人員開發(fā)了一種基于卷積神經網絡(CNN)的模型,用于提取知識淵博的片段和注釋文檔。他們的方法在arXiv上發(fā)表的論文中概述,盡管經過較??短時間的培訓,但發(fā)現(xiàn)其效果優(yōu)于現(xiàn)有工具。

在他們的論文中,研究人員將術語“知識淵博的文檔”定義為“包含多個知識淵博的片段的文檔,這些片段描述了實體的概念,屬性或實體之間的關系”。到目前為止,大多數(shù)知識庫,如YAGO或DBpedia,都基于Wikipedia,WordNet,GeoNames和其他在線資源提取知識。但是,與社交媒體平臺相比,這些資源通常包含有限且不靈活的信息。

研究人員在他們的論文中寫道:“另一個最近的知識庫Probase擁有270萬個概念,它是從迄今為止最大的語料庫中自動獲取的,其中包括從16.8億個網頁中提取的3.26億個知識淵博的句子。” “然而,這些句子只能通過赫斯特模式提取。為了提取更多知識淵博的片段以構建更全面的知識庫,需要基于語義的方法來補充以前基于模式的方法。”

知識淵博的片段和文章也可用于開發(fā)知識檢索和問答服務。例如,這些服務將回答正在尋找特定問題幫助的用戶提出的問題??紤]到這些應用,CAS的研究人員開始開發(fā)基于CNN的模型,該模型可以分析文檔的語義,確定它是否有用,并從中提取知識豐富的信息片段。

“具體來說,我們提出SSNN,這是一個基于CNN的聯(lián)合模型,用于協(xié)同理解不同領域中文檔的抽象概念,并判斷文檔是否具有知識性,”研究人員在他們的論文中解釋道。“更詳細地說,SSNN的網絡結構是'低級共享,高級分裂',其中低級別層為不同域共享,而CNN之外的高級層分別訓練以感知不同領域的差異。“

研究人員設計的模型提供了一種端到端的解決方案來注釋文檔,這些解決方案不需要進行大量耗時的特征工程。他們還開發(fā)了手動功能并訓練了SVM分類器模型來完成任務。

研究人員評估了他們的模型在微信開發(fā)的中文消息,社交媒體和移動支付平臺微信三個內容領域的真實文檔數(shù)據(jù)集上的有效性。他們的研究結果非常有希望,SSNN的表現(xiàn)始終優(yōu)于其他CNN模型,同時通過更短,更有效的培訓流程節(jié)省了時間和內存消耗。

研究人員在他們的論文中寫道:“與構建多個特定領域的CNN相比,這種聯(lián)合模型不僅可以大大節(jié)省訓練時間,而且可以明顯提高預測精度。” “在Wechat公共平臺的真實數(shù)據(jù)集中證明了所提模型的優(yōu)越性。”

將來,本研究中提出的SSNN 模型可用于構建更全面的知識數(shù)據(jù)庫。它還可以幫助開發(fā)創(chuàng)新服務,以實時快速和詳盡地回答用戶查詢。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。