您的位置: 首頁 >科技 >

這一過程不僅減少了別人說嘿Siri觸發(fā)您的iPhone的可能性

2022-09-15 11:40:52 編輯:易融順 來源:
導讀 直到今天,一篇非常有趣的技術文章還是在 10月1日發(fā)表在Apple的《機器學習期刊》博客上。在其中,蘋果詳細說明了不受限制的嘿Siri功能如何...

直到今天,一篇非常有趣的技術文章還是在 10月1日發(fā)表在Apple的《機器學習期刊》博客上。在其中,蘋果詳細說明了不受限制的“嘿Siri”功能如何利用硬件,軟件和iCloud的功能讓客戶免提使用助手。該系統(tǒng)將基于云的語音識別,自然語言解釋和其他服務與硬件輔助的設備上處理相結合。iOS設備始終運行“非常小的語音識別器”,僅聽“ Hey Siri”短語。

iPhone或Apple Watch中的麥克風每秒記錄16,000個瞬時波形樣本流。這就是為什么這樣做不會給您的iPhone電池增加太多負擔或壟斷RAM和CPU等其他系統(tǒng)資源的原因:

為了避免整日運行主處理器只是為了聽觸發(fā)短語,iPhone的始終在線協處理器(AOP,它是嵌入在Apple M系列運動協處理器中的低功耗輔助處理器)可以訪問您的麥克風信號iPhone 6s及更高版本。

我們使用AOP有限的有限處理能力中的一小部分來運行帶有小型神經網絡的檢測器。當分數超過閾值時,運動協處理器將喚醒主處理器,該主處理器將使用較大的神經網絡來分析信號。

由于電池較小,Apple Watch僅在其運動協處理器檢測到手腕抬起手勢時才運行“ Hey Siri”檢測器,從而打開了屏幕,這就是為什么屏幕關閉時無法在Apple Watch上使用“ Hey Siri” 。

WatchOS會為“ Hey Siri”分配大約有限計算預算的5%。

那么,他們如何實時識別真正的“嘿Siri”熱門短語?

一旦被設備捕獲,波形就會分解為一系列幀,每個幀描述大約0.01秒的聲譜。一次約有20幀(0.2秒的音頻)被傳遞到深度神經網絡。

在那里,聲音被轉換為一組語音聲音類別的概率分布:“嘿Siri”短語中使用的那些聲音類別,以及靜音和其他語音,總共約20種聲音類別。然后,計算出您說出的短語為“ Hey Siri”的置信度得分。

如果分數足夠高,Siri就會醒來。

在iPhone上,他們使用一個神經網絡進行初始檢測(在功率消耗運動芯片上運行),并使用另一個神經網絡作為輔助檢查程序(在主處理器上運行)。為了減少錯誤觸發(fā),Apple還將在“ Hey Siri”注冊過程中將任何新的“ Hey Siri”語音與保存在設備中的五個短語進行比較。

研究論文解釋說:“這一過程不僅減少了別人說'嘿Siri'觸發(fā)您的iPhone的可能性,而且降低了其他聽起來相似的短語觸發(fā)Siri的速度。”

該設備還將波形上傳到Siri服務器。

如果在云中運行的主要語音識別器聽到的聲音不是“ Hey Siri”(例如“ Hey認真地”,“ Hey敘利亞”或類似的東西),則服務器會向電話發(fā)送取消信號以將其放回睡覺。

“在某些系統(tǒng)上,我們在設備上運行主語音識別器的簡化版本,以便更早提供額外的檢查,” Apple指出。我認為,“某些系統(tǒng)”是指連接電源的設備,例如Mac,Apple TV甚至iPad。

上圖:穿過“ Hey Siri”檢測器的聲學模式,最底部顯示了來自麥克風的波形的頻譜圖。將頂部顯示的最終分數與閾值進行比較,以決定是否激活Siri。

該閾值本身就是動態(tài)值,因為Apple希望讓用戶在困難的條件下激活Siri-如果它錯過了真正的“ Hey Siri”事件,則系統(tǒng)將進入更敏感的狀態(tài)幾秒鐘。在此期間重復該短語將觸發(fā)Siri。

以下是他們訓練“ Hey Siri”探測器的聲學模型的方式:

早在有Hey Siri功能之前,一小部分用戶會在請求開始時說“ Hey Siri”,方法是先按下按鈕。我們在英語探測器模型的初始訓練中使用了此類“嘿Siri”語音。

我們還包括用于訓練主要語音識別器的一般語音示例。在這兩種情況下,我們都在訓練短語上使用了自動轉錄。Siri團隊成員檢查了轉錄的子集的準確性。

在美式英語中,聲學模型甚至考慮了“ Siri”中不同的第一個元音,一個在“嚴重”中,另一個在“ Syria”中。

訓練一個模型大約需要一天的時間,并且通常在任何一次訓練中都有幾個模型。他們通常會訓練三個版本:用于運動芯片第一次通過的小型模型,用于第二次通過的大尺寸模型以及用于Apple Watch的中型模型。

最后一個花絮:該系統(tǒng)也經過訓練,可以識別本地化的“ Hey Siri”短語。

例如,說法語的用戶說“ Dis Siri”。在韓國,他們說“ Siri?”,聽起來像“ Siri Ya”。講俄語的用戶使用“приветSiri”短語(諸如“ Privet Siri”之類的聲音)和泰語“” Siri”(諸如“ Wadi Siri”之類的聲音)。

蘋果公司說:“我們特別在各種條件下(例如在廚房(近處和遠處),汽車,臥室和餐廳中)以各種母語的人進行錄音,”

他們甚至使用多種語言的播客和Siri輸入來表示背景聲音(尤其是語音)和“用戶可能對另一個人說的短語”。

“下一次您說'嘿Siri'時,您可能會想到使對該詞組做出響應的所有事情,但我們希望它'行之有效',”蘋果很好地總結了這一點。

高度技術性的文章提供了對我們視為理所當然的“ Hey Siri”技術的迷人見解,因此,如果您有興趣了解更多信息,請務必對其進行閱讀或保存,以備日后使用。


免責聲明:本文由用戶上傳,如有侵權請聯系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。