Transgender YouTubers抓住他們的視頻來訓(xùn)練面部識(shí)別軟件

2019-05-22 17:48:34 編輯：來源：

導(dǎo)讀大約五六年前，Karl Ricanek的一名學(xué)生在YouTube上向他展示了一段視頻。為了轉(zhuǎn)變性別，這是一個(gè)經(jīng)歷激素替代療法或HRT的人的時(shí)間流逝。當(dāng)

大約五六年前，Karl Ricanek的一名學(xué)生在YouTube上向他展示了一段視頻。為了轉(zhuǎn)變性別，這是一個(gè)經(jīng)歷激素替代療法或HRT的人的時(shí)間流逝。“當(dāng)時(shí)，我們正致力于面部識(shí)別，”北卡羅來納大學(xué)威爾明頓分校計(jì)算機(jī)科學(xué)教授Ricanek告訴The Verge。他說他和他的學(xué)生總是試圖找到打破他們所處理系統(tǒng)的方法，而且這個(gè)視頻似乎是一個(gè)特別棘手的挑戰(zhàn)。“我們就像，'哇現(xiàn)在的技術(shù)無法識(shí)別這個(gè)人[在他們過渡后]。”

為了解決這個(gè)問題，Ricanek做了所有優(yōu)秀科學(xué)家的工作：他開始收集數(shù)據(jù)。像所有人工智能系統(tǒng)一樣，面部識(shí)別軟件需要一堆信息才能進(jìn)行訓(xùn)練，雖然有大量可供使用的大小可用的面部數(shù)據(jù)庫(大小從幾千到幾百萬不等)，但前后都沒有記錄面部。 HRT。因此，Ricanek轉(zhuǎn)向互聯(lián)網(wǎng) - 這一決定后來被證明是有爭議的。

在YouTube上，他找到了一個(gè)寶庫。接受HRT的個(gè)人經(jīng)常記錄他們的進(jìn)度并在線發(fā)布結(jié)果，有時(shí)會(huì)保留常規(guī)日記，有時(shí)會(huì)制作整個(gè)過程的延時(shí)視頻。“我分享了我的視頻，因?yàn)槲蚁Ｍ渌缧詣e人士看到我的過渡，”多年前在YouTube上發(fā)布過渡視頻的Danielle說。“這些類型的過渡蒙太奇對我有幫助，所以我想向前付錢，”她告訴The Verge。

這些視頻也恰好是AI研究人員的黃金，因?yàn)槊總€(gè)視頻都包含數(shù)十種不同的，逼真的照片。正如Ricanek在數(shù)據(jù)集的網(wǎng)頁上寫道，他將從視頻中編輯：“[它]包括在真實(shí)條件下拍攝的每個(gè)主題平均278張圖像，因此包括姿勢，光照，表情和閉塞“。

但問題是：這些視頻中的人是否知道或關(guān)心他們分享的幫助他人的個(gè)人旅程是否被用于改善面部識(shí)別軟件?

“這怎么合法?”

Adam Harvey是一位藝術(shù)家和研究員，他的工作考察了隱私和技術(shù)，他通過電子郵件告訴The Verge這種數(shù)據(jù)抓取“超出常見。”Harvey在研究期間發(fā)現(xiàn)了HRT跨性別數(shù)據(jù)集正在研究這個(gè)項(xiàng)目一種AI培訓(xùn)實(shí)踐。他在Twitter上分享了這一點(diǎn)，反應(yīng)并不好。“這怎么合法?”一位用戶問道。“不行，”另一個(gè)說。

當(dāng)我們聯(lián)系他時(shí)，Ricanek并不知道他的工作正在以這種方式進(jìn)行討論。然而，他確實(shí)希望澄清有關(guān)該研究的一些事項(xiàng)。首先，數(shù)據(jù)集本身只是一組指向YouTube視頻的鏈接，而不是視頻本身; 第二，他從未與任何人分享商業(yè)用途(“我們的工作只是為了闡明存在的問題區(qū)域。”); 第三，他在三年前就停止了對它的訪問。

“這樣做的原因是，在目前的氣候條件下，提供那些東西感覺有點(diǎn)不舒服，”他告訴The Verge。“出于政治原因，我不再愿意分發(fā)鏈接了。人們可以利用這個(gè)來造成傷害，這不是我的意圖。“他說他的團(tuán)隊(duì)確實(shí)試圖聯(lián)系他列出的視頻的人，并且”禮貌地“征得他們的同意，但承認(rèn)如果有人沒有回應(yīng)，他們可能會(huì)已被包括在內(nèi)。

Danielle是數(shù)據(jù)集中的特色，其過渡圖片因此而出現(xiàn)在科學(xué)論文中，她說從未接觸過她的收錄。“我絕不'隱藏'我的身份，”她告訴The Verge使用在線消息服務(wù)。“但這感覺就像是對隱私的侵犯。”她說她很高興知道數(shù)據(jù)集的使用存在限制(特別是它沒有出售給公司)，但是說這種生物識(shí)別系列“全部”對跨性別社區(qū)的各種影響。“

“在'身份科學(xué)'工作的人應(yīng)該理解識(shí)別人的意義，特別是那些身份可能使他們成為目標(biāo)的人(即軍隊(duì)中可能不會(huì)出局的人)，”她說。“在跨社群中，有一個(gè)非常微不足道的人群被YouTube視頻或其他內(nèi)容嚇壞了，這些內(nèi)容可以幫助人們弄清楚如何'發(fā)現(xiàn)跨性別者'。”

對于哈維來說，這個(gè)故事并不奇怪。“缺乏關(guān)于數(shù)據(jù)收集倫理的公共話語使研究人員能夠繼續(xù)積累來自社交媒體來源的大量生物識(shí)別數(shù)據(jù)，即Flickr和YouTube，”他說。這些圖像默認(rèn)情況下可以獲得Creative Commons(CC)許可，允許它們自由下載并用于訓(xùn)練面部識(shí)別系統(tǒng)，即使研究是由營利性公司資助的。

與其他數(shù)據(jù)集相比，Ricanek是一個(gè)小魚。例如，華盛頓大學(xué)編制的MegaFace數(shù)據(jù)集包含大約627,000個(gè)人的470萬張圖像 - 全部來自Flickr用戶。該項(xiàng)目的贊助商包括三星，英特爾和谷歌，這些數(shù)據(jù)本身也被世界各地的研究人員使用，他們的工作幾乎肯定會(huì)用于付費(fèi)產(chǎn)品。

哈維說，拋開合法性和同意的問題，“對這些數(shù)據(jù)集中的實(shí)際內(nèi)容存在”更深層次的道德問題。“他指出，MegaFace中兩種最常見的圖像類別是”家庭“和”婚禮“。感覺，我們喜歡拍攝比我們所愛的人更多的照片?哈維說，在數(shù)據(jù)庫內(nèi)部看一看，“無數(shù)個(gè)人照片顯示了人們的家，婚禮，野餐，海灘旅行，自拍，甚至還有兒童的照片。大多數(shù)(如果不是全部)這些照片中的人都不知道世界各地的生物識(shí)別公司正在為他們的朋友，家人和孩子磨練面部識(shí)別算法。“

執(zhí)法部門和國家安全機(jī)構(gòu)也對這些數(shù)據(jù)感興趣。Ricanek的研究部分由FBI和陸軍資助(盡管他說跨性別數(shù)據(jù)集從未與任何政府機(jī)構(gòu)共享，也不是由他們資助)。Ricanek將這項(xiàng)研究稱為解決奇幻邊境威脅的理由。但是，使用這種研究的系統(tǒng)可能會(huì)加劇跨性別者在旅行檢查站已經(jīng)面臨的騷擾和羞辱。

“如果恐怖分子明白服用這種激素可以增加他們進(jìn)入受到人臉識(shí)別保護(hù)的邊界的機(jī)會(huì)，他們可以做出什么樣的傷害?這是我正在調(diào)查的問題，“他說。“對于這些視頻中可能引起任何人的任何類型的痛苦，我深表歉意。那肯定不是我來自哪里。作為學(xué)者，我們看到了巨大的挑戰(zhàn)，我們希望在他們身上努力，但在這些挑戰(zhàn)背后的是真實(shí)的人，他們可能會(huì)受到我們無法理解的方式的影響。

哈維說，目前關(guān)于這種數(shù)據(jù)收集的道德規(guī)范“存在爭議”。這是一個(gè)復(fù)雜的話題，盡管個(gè)人可能會(huì)對他們的圖像未經(jīng)許可使用而感到憤怒，但他們幾乎無能為力。

在某些情況下存在阻力(例如，當(dāng)研究人員未經(jīng)許可從Tinder中搜集40,000個(gè)自拍并在線發(fā)布數(shù)據(jù)集時(shí))，但在關(guān)于采集數(shù)據(jù)的正確和錯(cuò)誤方式的辯論中，最響亮的聲音是大公司。這導(dǎo)致了像英國這樣的情況，谷歌的人工智能子公司DeepMind 非法達(dá)成了160萬人的醫(yī)療記錄。

在某種程度上，我們已經(jīng)習(xí)慣了這筆交易。這是現(xiàn)代互聯(lián)網(wǎng)的重要優(yōu)勢：您可以提供有關(guān)您生活的信息，作為回報(bào)，您可以獲得免費(fèi)服務(wù)。但是在人工智能時(shí)代，隨著收集的數(shù)據(jù)變得越來越個(gè)性化 - 不僅僅是你的匿名瀏覽習(xí)慣，而是你，你的家人，你的個(gè)人時(shí)刻的圖片 - 以及它所創(chuàng)造的系統(tǒng)越來越多的控制，也許是時(shí)間再一次問自己，我們是否放棄了太多?