幫助找到人類基因組中缺失和重復(fù)的新方法

2022-08-24 21:20:51 編輯：孔晴雁來源：

導(dǎo)讀一種新的機(jī)器學(xué)習(xí)方法可以準(zhǔn)確地識(shí)別已被復(fù)制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關(guān)。這項(xiàng)由...

一種新的機(jī)器學(xué)習(xí)方法可以準(zhǔn)確地識(shí)別已被復(fù)制或刪除的人類基因組區(qū)域 - 稱為拷貝數(shù)變異 - 通常與自閉癥和其他神經(jīng)發(fā)育障礙有關(guān)。這項(xiàng)由賓夕法尼亞州立大學(xué)研究人員開發(fā)的新方法整合了幾種算法的數(shù)據(jù)，這些算法試圖從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異 - 僅對人類基因組的蛋白質(zhì)編碼區(qū)進(jìn)行高通量DNA測序。一篇描述該方法的論文，可以幫助臨床醫(yī)生提供更準(zhǔn)確的遺傳性疾病診斷，發(fā)表在Genome Research期刊上。

“外顯子組測序正迅速成為鑒定臨床環(huán)境中遺傳變異的黃金標(biāo)準(zhǔn)，因?yàn)樗绕渌椒ǜ?，更便宜?rdquo;賓夕法尼亞州立大學(xué)生物化學(xué)和分子生物學(xué)副教授，該論文的第一作者Santhosh Girirajan說。“然而，目前用于從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異的算法具有非常高的假陽性率 - 它們識(shí)別的許多變體實(shí)際上并不真實(shí)。使用我們稱為“CN-Learn”的新方法，我們報(bào)告的大約90%的拷貝數(shù)變種是真實(shí)的。“

一種隨機(jī)森林機(jī)器學(xué)習(xí)方法，用于從外顯子組測序數(shù)據(jù)中識(shí)別拷貝數(shù)變異。在經(jīng)驗(yàn)證的一組遺傳缺失和重復(fù)上訓(xùn)練了數(shù)百個(gè)決策樹的森林，然后可以使用從這些樹建立的模型來準(zhǔn)確地識(shí)別樣本外顯子組測序數(shù)據(jù)中的拷貝數(shù)變異。圖片來源：賓夕法尼亞州Girirajan實(shí)驗(yàn)室

人類基因組通常包含每個(gè)基因的兩個(gè)拷貝，一個(gè)在染色體對的每個(gè)成員上。當(dāng)一個(gè)細(xì)胞分成兩個(gè)時(shí)，基因組被復(fù)制，以便每個(gè)子細(xì)胞獲得完整的基因補(bǔ)充，但偶爾會(huì)在基因組復(fù)制過程中發(fā)生錯(cuò)誤，當(dāng)存在于精子或卵細(xì)胞中時(shí)，會(huì)導(dǎo)致個(gè)體獲得更多或少于兩個(gè)基因拷貝。

為了從外顯子組測序數(shù)據(jù)中鑒定拷貝數(shù)變異，研究人員研究了從每個(gè)基因產(chǎn)生的DNA序列的相對數(shù)量。如果個(gè)體中只存在一個(gè)基因拷貝，那么他們希望看到的測序讀數(shù)比有兩個(gè)拷貝時(shí)更少，而且三個(gè)拷貝的基因會(huì)導(dǎo)致更多的讀數(shù)。但它并不那么簡單，因?yàn)樵S多其他因素可以影響從每個(gè)基因產(chǎn)生多少測序讀數(shù)。因此，研究人員開發(fā)了幾種算法，試圖從外顯子組測序數(shù)據(jù)中正確識(shí)別拷貝數(shù)變異。然而，單獨(dú)地，這些算法不是特別可靠。

“通常，復(fù)制數(shù)變量算法的大量誤報(bào)已經(jīng)通過使用多種算法來處理，并且只計(jì)算所有方法所確定的變體 - 如維恩圖，”Vijay Kumar Pounraja說，他是研究生。賓夕法尼亞州立大學(xué)和論文的第一作者。“這種方法有許多缺點(diǎn)和局限，因此我們決定開發(fā)一種新的機(jī)器學(xué)習(xí)方法。”

CN-Learn整合來自四種不同拷貝數(shù)變異算法的數(shù)據(jù)，并使用一小組經(jīng)過生物學(xué)驗(yàn)證的缺失和重復(fù)來學(xué)習(xí)這些基因組事件的特征。這種學(xué)習(xí)過程由稱為“隨機(jī)森林”的機(jī)器學(xué)習(xí)算法促進(jìn)，該算法使用數(shù)百個(gè)決策樹來模擬刪除和重復(fù)的遺傳背景與它們被驗(yàn)證的可能性之間的關(guān)系。然后，CN-Learn使用此模型預(yù)測其他樣本中的刪除和重復(fù)，而無需驗(yàn)證。

“關(guān)于患者的診斷和最終治療的決定是基于這些信息做出的，因此將它們弄好是非常重要的，”Girirajan說。“正因?yàn)槿绱?，我們已?jīng)將CN-Learn和所有必要的支持程序提供給一個(gè)簡單的軟件包下載。”

標(biāo)簽：

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！