您的位置: 首頁(yè) >科技 >

幫助找到人類基因組中缺失和重復(fù)的新方法

2022-08-24 21:20:51 編輯:孔晴雁 來(lái)源:
導(dǎo)讀 一種新的機(jī)器學(xué)習(xí)方法可以準(zhǔn)確地識(shí)別已被復(fù)制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關(guān)。這項(xiàng)由...

一種新的機(jī)器學(xué)習(xí)方法可以準(zhǔn)確地識(shí)別已被復(fù)制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關(guān)。這項(xiàng)由賓夕法尼亞州立大學(xué)研究人員開(kāi)發(fā)的新方法整合了幾種算法的數(shù)據(jù),這些算法試圖從外顯子組測(cè)序數(shù)據(jù)中鑒定拷貝數(shù)變異 - 僅對(duì)人類基因組的蛋白質(zhì)編碼區(qū)進(jìn)行高通量DNA測(cè)序。一篇描述該方法的論文,可以幫助臨床醫(yī)生提供更準(zhǔn)確的遺傳性疾病診斷,發(fā)表在Genome Research期刊上。

“外顯子組測(cè)序正迅速成為鑒定臨床環(huán)境中遺傳變異的黃金標(biāo)準(zhǔn),因?yàn)樗绕渌椒ǜ?,更便宜?rdquo;賓夕法尼亞州立大學(xué)生物化學(xué)和分子生物學(xué)副教授,該論文的第一作者Santhosh Girirajan說(shuō)。“然而,目前用于從外顯子組測(cè)序數(shù)據(jù)中鑒定拷貝數(shù)變異的算法具有非常高的假陽(yáng)性率 - 它們識(shí)別的許多變體實(shí)際上并不真實(shí)。使用我們稱為“CN-Learn”的新方法,我們報(bào)告的大約90%的拷貝數(shù)變種是真實(shí)的。“

一種隨機(jī)森林機(jī)器學(xué)習(xí)方法,用于從外顯子組測(cè)序數(shù)據(jù)中識(shí)別拷貝數(shù)變異。在經(jīng)驗(yàn)證的一組遺傳缺失和重復(fù)上訓(xùn)練了數(shù)百個(gè)決策樹的森林,然后可以使用從這些樹建立的模型來(lái)準(zhǔn)確地識(shí)別樣本外顯子組測(cè)序數(shù)據(jù)中的拷貝數(shù)變異。圖片來(lái)源:賓夕法尼亞州Girirajan實(shí)驗(yàn)室

人類基因組通常包含每個(gè)基因的兩個(gè)拷貝,一個(gè)在染色體對(duì)的每個(gè)成員上。當(dāng)一個(gè)細(xì)胞分成兩個(gè)時(shí),基因組被復(fù)制,以便每個(gè)子細(xì)胞獲得完整的基因補(bǔ)充,但偶爾會(huì)在基因組復(fù)制過(guò)程中發(fā)生錯(cuò)誤,當(dāng)存在于精子或卵細(xì)胞中時(shí),會(huì)導(dǎo)致個(gè)體獲得更多或少于兩個(gè)基因拷貝。

為了從外顯子組測(cè)序數(shù)據(jù)中鑒定拷貝數(shù)變異,研究人員研究了從每個(gè)基因產(chǎn)生的DNA序列的相對(duì)數(shù)量。如果個(gè)體中只存在一個(gè)基因拷貝,那么他們希望看到的測(cè)序讀數(shù)比有兩個(gè)拷貝時(shí)更少,而且三個(gè)拷貝的基因會(huì)導(dǎo)致更多的讀數(shù)。但它并不那么簡(jiǎn)單,因?yàn)樵S多其他因素可以影響從每個(gè)基因產(chǎn)生多少測(cè)序讀數(shù)。因此,研究人員開(kāi)發(fā)了幾種算法,試圖從外顯子組測(cè)序數(shù)據(jù)中正確識(shí)別拷貝數(shù)變異。然而,單獨(dú)地,這些算法不是特別可靠。

“通常,復(fù)制數(shù)變量算法的大量誤報(bào)已經(jīng)通過(guò)使用多種算法來(lái)處理,并且只計(jì)算所有方法所確定的變體 - 如維恩圖,”Vijay Kumar Pounraja說(shuō),他是研究生。賓夕法尼亞州立大學(xué)和論文的第一作者。“這種方法有許多缺點(diǎn)和局限,因此我們決定開(kāi)發(fā)一種新的機(jī)器學(xué)習(xí)方法。”

CN-Learn整合來(lái)自四種不同拷貝數(shù)變異算法的數(shù)據(jù),并使用一小組經(jīng)過(guò)生物學(xué)驗(yàn)證的缺失和重復(fù)來(lái)學(xué)習(xí)這些基因組事件的特征。這種學(xué)習(xí)過(guò)程由稱為“隨機(jī)森林”的機(jī)器學(xué)習(xí)算法促進(jìn),該算法使用數(shù)百個(gè)決策樹來(lái)模擬刪除和重復(fù)的遺傳背景與它們被驗(yàn)證的可能性之間的關(guān)系。然后,CN-Learn使用此模型預(yù)測(cè)其他樣本中的刪除和重復(fù),而無(wú)需驗(yàn)證。

“關(guān)于患者的診斷和最終治療的決定是基于這些信息做出的,因此將它們弄好是非常重要的,”Girirajan說(shuō)。“正因?yàn)槿绱耍覀円呀?jīng)將CN-Learn和所有必要的支持程序提供給一個(gè)簡(jiǎn)單的軟件包下載。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。