2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
毫不夸張地說,人工智能已經(jīng)遇到了一個大數(shù)據(jù)問題,而危機現(xiàn)在已經(jīng)讓這個問題變得不可能再被忽視。
對于企業(yè)、政府和個人來說,這場全球大流行有效地重新定義了“正常”生活;但是,盡管我們大多數(shù)人現(xiàn)在已經(jīng)適應了這種變化,AI系統(tǒng)卻不能這樣說,因為它們的預測是建立在過去的樣子之上的。
在CogX 2020大會上,英國數(shù)學家大衛(wèi)·巴伯說:“人工智能系統(tǒng)的部署目前是笨拙的。通常,你去那里,收集你的數(shù)據(jù)集,標記它,培訓系統(tǒng),然后部署它。就是這樣——你不必重新訪問已部署的系統(tǒng)。但如果環(huán)境在變化,這就不好了?!?/p>
巴伯指的是監(jiān)督機器學習,他將其稱為當今人工智能的“經(jīng)典范式”,包括通過實例來教算法。在監(jiān)督模型中,人工智能系統(tǒng)被輸入一個大數(shù)據(jù)集,這些數(shù)據(jù)集之前已經(jīng)被人類標記過,用來訓練技術(shù)識別模式和做出預測。
例如,您可以訓練一種算法來基于個人收入或信用評分自動化銀行的貸款決策。如果出現(xiàn),再加上一套全新的銀行模式,人工智能系統(tǒng)很可能無法決定誰能得到這筆錢。
同樣,危機爆發(fā)幾個月后,一位美國研究人員指出,盡管已經(jīng)向算法提供了所有的訓練數(shù)據(jù),但算法對于理解疫情的性質(zhì)或其在全球的傳播并沒有多大幫助。
這項研究解釋說,由于缺乏關(guān)于過去的培訓數(shù)據(jù),人工智能工具產(chǎn)生的大多數(shù)預測被發(fā)現(xiàn)缺乏可靠性,結(jié)果往往偏離了危機的嚴重性。
與此同時,在healthtech,人工智能健康工具的制造商難以更新自己的算法,原因是缺乏有關(guān)該病毒的相關(guān)數(shù)據(jù),導致許多“癥狀發(fā)現(xiàn)者”(symptom finder)聊天機器人出現(xiàn)了一點問題。
由于來自前covid環(huán)境的數(shù)據(jù)不再與現(xiàn)實世界相匹配,監(jiān)督算法正在耗盡其預測所依據(jù)的例子。更糟糕的是,人工智能系統(tǒng)不會將它們的不確定性告知人類操作員。
巴伯說:“人工智能不會告訴你,它實際上對自己的預測的準確性沒有信心,需要人類介入?!薄斑@些系統(tǒng)中有很多不確定因素。因此,當人工智能對自己的決定沒有信心時,提醒人類是很重要的。”
這就是巴伯所說的“人工智能同事情境”,在這種情境中,人類和機器將進行互動,以確??瞻撞粫惶钛a。事實上,它是人工智能中的一種方法,正慢慢成為一種特別有效的方法。
它被稱為“主動學習”,包括在人工智能系統(tǒng)和人類操作員之間建立一種“師-學”關(guān)系。主動學習不是向算法提供一個巨大的標記數(shù)據(jù)集,然后讓它得出結(jié)論——通常是以一種不那么透明的方式——而是讓人工智能系統(tǒng)自己做大量的數(shù)據(jù)標記,而且最重要的是,當它有疑問時提出問題。
這個過程涉及到一個小的人工標記數(shù)據(jù)池,稱為種子,用于訓練算法。人工智能系統(tǒng)隨后會得到一組更大的未標記數(shù)據(jù),算法會根據(jù)自己的訓練對其進行注釋,然后再將這些新標記的數(shù)據(jù)整合回種子中。
當工具對某個特定的標簽沒有信心時,它可以以查詢的形式向人工操作人員請求幫助。然后,人類專家做出的選擇會反饋給系統(tǒng),以改善整個學習過程。
主動學習的直接吸引力在于訓練系統(tǒng)所需的標記數(shù)據(jù)量要小得多。監(jiān)督算法,因為它們不能自己學習,所以需要人類提供大量的帶標簽的例子。這意味著需要為任何給定的數(shù)據(jù)集手工標記數(shù)十億個數(shù)據(jù)點,這將是一個漫長而昂貴的過程。
一些平臺,如亞馬遜的土耳其機器人,甚至專門將遍布全球的大量低成本勞動力連接起來。他們被稱為“土耳其人”,每天點擊數(shù)千張圖片,按要求注釋數(shù)據(jù)點,所有這些都將用于訓練未來的算法。
另一方面,主動學習只需要標記一個小的數(shù)據(jù)種子池。事實上,Barber估計該過程所涉及的注釋要少十倍。
他不是唯一一個發(fā)現(xiàn)這種方法的特殊好處的人。尤其是大型科技公司,它們對減少為自己的算法提供標簽數(shù)據(jù)的數(shù)量有著濃厚的興趣。
Facebook的人工智能部門在開發(fā)一種人工智能學習模型和多種應用程序上投入了大量資金,包括識別有害內(nèi)容。這家科技巨頭最近公布的結(jié)果顯示,其人工智能團隊使用一種師生結(jié)合的方法,成功地訓練了一種基于10億張未標記圖像的圖像分類算法,使用的是“相對較小的”標記數(shù)據(jù)集。
但這不僅僅是關(guān)于減少數(shù)據(jù)標記的過程:主動學習也比監(jiān)督學習更有效。當它面對不確定的數(shù)據(jù)時,能夠向人類請教如何關(guān)注,這意味著一個“活躍的”人工智能系統(tǒng)不僅能對未知做出反應,還能從中學習。
在內(nèi)容審核的情況下,一個“主動”算法會做出更明智的決定,因為它會越來越多地學會發(fā)現(xiàn)越來越多的微妙形式的內(nèi)容違規(guī)。一個“活躍的”人工智能系統(tǒng)在自然語言處理或醫(yī)學成像方面也會非常高效。
Barber補充說,該技術(shù)的一個高調(diào)應用是在無人駕駛汽車上,在無人駕駛汽車上,視頻仍然需要被分割成部分,并標記為“行人”、“汽車”、“樹”和其他物體,汽車需要識別。注釋數(shù)以百萬計的視頻既費時又昂貴;另一方面,讓算法學習和提問可以顯著加快這一過程。
而且,當全球大流行襲來時,“活躍的”人工智能系統(tǒng)將能夠?qū)崟r整合新的數(shù)據(jù),以及一些人工輸入,然后調(diào)整它們的預測——而不是等待大型數(shù)據(jù)集被人工注釋以供訓練。
Barber對ZDNet表示:“如果你正在使用收集大量數(shù)據(jù)、然后訓練深度學習模型的傳統(tǒng)方法開發(fā)AI,那么就只能這么快了?!薄霸趥鹘y(tǒng)模式下,不到幾個月就能有一款新模式投入生產(chǎn)已經(jīng)很幸運了。但在主動學習的情況下,這最多只需要幾天時間?!?/p>
這位數(shù)學家與人共同創(chuàng)立了Re:infer公司,該公司利用主動學習來幫助企業(yè)更好地理解和自動處理每天從供應商那里收到的電子郵件、電話和聊天。
傳統(tǒng)上,為這一特定任務構(gòu)建算法,需要從給定企業(yè)收到的數(shù)千條客戶信息中手動標記每句話,然后將其作為訓練輸入人工智能系統(tǒng)。
然而,使用主動學習,算法可以快速從基礎(chǔ)數(shù)據(jù)集中學習,并且只向員工展示它不確定的句子。根據(jù)Barber的說法,該方法將整個流程的估值時間提高了10到100倍。
見:人工智能在診斷中遇到了一個大數(shù)據(jù)問題
在與Barber舉行的同一個會議上,倫敦大學學院計算機科學教授Emine Yilmaz同意主動學習具有很大的潛力。她表示:“未來幾年,我們的目標是建立一種人工智能向我們學習的模式?!?/p>
“一個系統(tǒng)應該能夠說,它對一個給定的分類是不確定的,它有困難。它應該能夠直接向人類提問,就像孩子學習一樣,”她補充道。
人類與人工智能之間的互動達到了新的水平,這很可能有利于這種算法:耶爾馬茲認為,這種方法可能會克服一些員工對在工作場所使用這種技術(shù)的恐懼。在這種情況下,主動人工智能可以提供一種更溫和的選擇,讓算法充當合作者,而不是替代者。
盡管這個算法同事非常聰明,但它仍然不時地需要人類的幫助。不管這聽起來是不是一種自然的工作關(guān)系,“人在回路中”的概念無疑似乎是對人工智能大數(shù)據(jù)問題的一種改進,而且可能是一種解決方案。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。