2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
您是否曾在新的商店或地點使用過您的信用卡才能拒絕?由于您收取的金額高于平時,因此銷售是否被阻止?
在合法交易中,消費者的信用卡經(jīng)常出人意料地被拒絕。一個原因是消費者銀行使用的欺詐檢測技術(shù)錯誤地將銷售標(biāo)記為可疑?,F(xiàn)在,麻省理工學(xué)院的研究人員采用了一種新的機器學(xué)習(xí)技術(shù),大大減少了這些誤報,為銀行節(jié)省了資金,減輕了客戶的挫敗感。
使用機器學(xué)習(xí)來檢測財務(wù)欺詐可以追溯到20世紀(jì)90年代初,并且多年來一直在發(fā)展。研究人員訓(xùn)練模型,從過去的交易中提取行為模式,稱為“ 特征 ”,表示欺詐行為。當(dāng)您刷卡時,卡會對模型進行 ping操作,如果功能與欺詐行為相符,則銷售會被阻止。
然而,在幕后,數(shù)據(jù)科學(xué)家必須想到這些功能,這些功能主要集中在數(shù)量和位置的一攬子規(guī)則上。如果任何給定的客戶在一次購買時花費超過2,000美元,或者在同一天進行大量購買,則可能會被標(biāo)記。但由于消費者的消費習(xí)慣各不相同,即使在個人賬戶中,這些模型有時也是不準(zhǔn)確的:Javelin Strategy and Research 2015年的一份報告估計,只有五分之一的欺詐預(yù)測是正確的,錯誤可能導(dǎo)致銀行損失1180億美元的收入,拒絕客戶然后不使用該信用卡。
麻省理工學(xué)院的研究人員已經(jīng)開發(fā)出一種“自動化特征工程”方法,可以為每個單獨的交易提取200多個詳細(xì)功能 - 例如,如果用戶在購買期間在場,以及某些供應(yīng)商在特定日期花費的平均金額。通過這樣做,它可以更好地確定特定持卡人的消費習(xí)慣何時偏離常態(tài)。
通過對來自大型銀行的180萬筆交易的數(shù)據(jù)集進行測試,該模型比傳統(tǒng)模型減少了54%的誤報預(yù)測,研究人員估計可以為銀行節(jié)省190,000歐元(約合220,000美元)的收入損失。
麻省理工學(xué)院信息與決策系統(tǒng)實驗室(LIDS)的首席研究科學(xué)家Kalyan Veeramachaneni說:“這個行業(yè)面臨的巨大挑戰(zhàn)是誤報。”該論文的共同作者是該論文的共同作者,該論文在最近的歐洲會議上發(fā)表。用于機器學(xué)習(xí)。“我們可以說特征工程和[減少]誤報之間存在直接聯(lián)系。這對提高這些機器學(xué)習(xí)模型的準(zhǔn)確性是最有影響力的。”
論文的共同作者是:主要作者Roy Wedge,前LIDS數(shù)據(jù)實驗室研究員; James Max Kanter '15,SM '15; 和Banco Bilbao Vizcaya Argentaria的Santiago Moral Rubio和Sergio Iglesias Perez。
提取“深層”功能
三年前,Veeramachaneni和Kanter開發(fā)了深度特征合成(DFS),這是一種從任何數(shù)據(jù)中提取高度詳細(xì)特征的自動化方法,并決定將其應(yīng)用于金融交易。
企業(yè)有時會主持競爭,提供有限的數(shù)據(jù)集以及欺詐等預(yù)測問題。數(shù)據(jù)科學(xué)家開發(fā)預(yù)測模型,現(xiàn)金獎勵最精確的模型。研究人員參加了一次這樣的比賽,并獲得了DFS的最高分。
然而,他們意識到如果對幾種原始數(shù)據(jù)源進行培訓(xùn),該方法可以充分發(fā)揮其潛力。Veeramachaneni說:“如果你看一下公司發(fā)布的數(shù)據(jù),它只是它們實際擁有的一小部分。” “我們的問題是,'我們?nèi)绾螌⑦@種方法用于實際業(yè)務(wù)?'”
在國防高級研究計劃局的數(shù)據(jù)驅(qū)動的模型發(fā)現(xiàn)計劃的支持下,坎特和他的團隊在FeatureLabs上進行商業(yè)化,該技術(shù)開發(fā)了一個用于自動特征提取的開源庫,名為Featuretools,用于本研究。
研究人員獲得了一家由國際銀行提供的三年數(shù)據(jù)集,其中包括有關(guān)交易金額,時間,地點,供應(yīng)商類型和所用終端的詳細(xì)信息。它包含來自約700萬張個人卡的大約9億筆交易。在這些交易中,大約122,000個被確認(rèn)為欺詐。研究人員在該數(shù)據(jù)的子集上訓(xùn)練和測試了他們的模型。
在培訓(xùn)中,該模型尋找交易模式以及與欺詐案件相匹配的卡片。然后,它會自動將它找到的所有不同變量組合成“深層”功能,從而為每個事務(wù)提供高度詳細(xì)的視圖。從數(shù)據(jù)集中,DFS模型為每個事務(wù)提取了237個特征。Veeramachaneni說,這些代表了持卡人的高度定制變量。“說,周五,顧客通常會在星巴克花5美元或15美元,”他說。“這個變量看起來像'星期五早上在咖啡店花了多少錢?'”
然后,它為該功能帳戶創(chuàng)建一個if / then決策樹,該功能可以指向欺詐,也可以不指向欺詐。當(dāng)通過決策樹運行新事務(wù)時,模型會實時決定交易是否是欺詐性的。
與銀行使用的傳統(tǒng)模型相比,DFS模型產(chǎn)生了大約133,000個誤報,而289,000個誤報,大約減少了54%。研究人員估計,除了檢測到的漏報數(shù)量較少 - 未檢測到的實際欺詐行為 - 可以為銀行節(jié)省大約19萬歐元。
堆疊基元
模型的主干包括創(chuàng)造性地堆疊的“基元”,簡單的函數(shù),它們接受兩個輸入并提供輸出。例如,計算兩個數(shù)的平均值是一個基元。這可以與查看兩個事務(wù)的時間戳的原語組合,以獲得事務(wù)之間的平均時間。堆疊另一個原語來計算這些事務(wù)中兩個地址之間的距離,給出兩個特定位置的兩次購買之間的平均時間。另一個原語可以確定購買是在工作日還是周末進行,依此類推。
“一旦我們擁有這些基元,就不會阻止我們堆疊它們......你開始看到之前沒有想到的這些有趣的變量。如果你深入研究算法,那么基元是秘密的,”Veeramachaneni說。
Veeramachaneni指出,模型生成的一個重要特征是計算這兩個位置之間的距離,以及它們是親自發(fā)生還是遠(yuǎn)程發(fā)生。如果有人在Stata中心親自購買東西,半小時后,在200英里以外的地方購買東西,那么欺詐的概率很高。但如果通過手機進行一次購買,則欺詐概率會下降。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。