一個(gè)神經(jīng)網(wǎng)絡(luò) 用于提取知識淵博的片段和文檔

2019-06-11 17:06:16 編輯：來源：

導(dǎo)讀每天，在社交媒體和其他平臺上發(fā)布數(shù)百萬篇文章，從瀏覽網(wǎng)頁的用戶那里獲得大量點(diǎn)擊和分享。其中許多文章包含有用的信息，如果提取，可用于

每天，在社交媒體和其他平臺上發(fā)布數(shù)百萬篇文章，從瀏覽網(wǎng)頁的用戶那里獲得大量點(diǎn)擊和分享。其中許多文章包含有用的信息，如果提取，可用于編譯知識數(shù)據(jù)庫或提供知識檢索和問答服務(wù)。

中國科學(xué)院(CAS)的研究人員開發(fā)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型，用于提取知識淵博的片段和注釋文檔。他們的方法在arXiv上發(fā)表的論文中概述，盡管經(jīng)過較??短時(shí)間的培訓(xùn)，但發(fā)現(xiàn)其效果優(yōu)于現(xiàn)有工具。

在他們的論文中，研究人員將術(shù)語“知識淵博的文檔”定義為“包含多個(gè)知識淵博的片段的文檔，這些片段描述了實(shí)體的概念，屬性或?qū)嶓w之間的關(guān)系”。到目前為止，大多數(shù)知識庫，如YAGO或DBpedia，都基于Wikipedia，WordNet，GeoNames和其他在線資源提取知識。但是，與社交媒體平臺相比，這些資源通常包含有限且不靈活的信息。

研究人員在他們的論文中寫道：“另一個(gè)最近的知識庫Probase擁有270萬個(gè)概念，它是從迄今為止最大的語料庫中自動(dòng)獲取的，其中包括從16.8億個(gè)網(wǎng)頁中提取的3.26億個(gè)知識淵博的句子。” “然而，這些句子只能通過赫斯特模式提取。為了提取更多知識淵博的片段以構(gòu)建更全面的知識庫，需要基于語義的方法來補(bǔ)充以前基于模式的方法。”

知識淵博的片段和文章也可用于開發(fā)知識檢索和問答服務(wù)。例如，這些服務(wù)將回答正在尋找特定問題幫助的用戶提出的問題?？紤]到這些應(yīng)用，CAS的研究人員開始開發(fā)基于CNN的模型，該模型可以分析文檔的語義，確定它是否有用，并從中提取知識豐富的信息片段。

“具體來說，我們提出SSNN，這是一個(gè)基于CNN的聯(lián)合模型，用于協(xié)同理解不同領(lǐng)域中文檔的抽象概念，并判斷文檔是否具有知識性，”研究人員在他們的論文中解釋道。“更詳細(xì)地說，SSNN的網(wǎng)絡(luò)結(jié)構(gòu)是'低級共享，高級分裂'，其中低級別層為不同域共享，而CNN之外的高級層分別訓(xùn)練以感知不同領(lǐng)域的差異。“

研究人員設(shè)計(jì)的模型提供了一種端到端的解決方案來注釋文檔，這些解決方案不需要進(jìn)行大量耗時(shí)的特征工程。他們還開發(fā)了手動(dòng)功能并訓(xùn)練了SVM分類器模型來完成任務(wù)。

研究人員評估了他們的模型在微信開發(fā)的中文消息，社交媒體和移動(dòng)支付平臺微信三個(gè)內(nèi)容領(lǐng)域的真實(shí)文檔數(shù)據(jù)集上的有效性。他們的研究結(jié)果非常有希望，SSNN的表現(xiàn)始終優(yōu)于其他CNN模型，同時(shí)通過更短，更有效的培訓(xùn)流程節(jié)省了時(shí)間和內(nèi)存消耗。

研究人員在他們的論文中寫道：“與構(gòu)建多個(gè)特定領(lǐng)域的CNN相比，這種聯(lián)合模型不僅可以大大節(jié)省訓(xùn)練時(shí)間，而且可以明顯提高預(yù)測精度。” “在Wechat公共平臺的真實(shí)數(shù)據(jù)集中證明了所提模型的優(yōu)越性。”

將來，本研究中提出的SSNN 模型可用于構(gòu)建更全面的知識數(shù)據(jù)庫。它還可以幫助開發(fā)創(chuàng)新服務(wù)，以實(shí)時(shí)快速和詳盡地回答用戶查詢。

標(biāo)簽：神經(jīng)網(wǎng)絡(luò)