誰(shuí)才是讓AI產(chǎn)生偏見(jiàn)的幕后推手？現(xiàn)在還沒(méi)有100%無(wú)偏見(jiàn)的數(shù)據(jù)集

2020-07-15 09:22:17 來(lái)源：科技日?qǐng)?bào)

美國(guó)麻省理工學(xué)院媒體實(shí)驗(yàn)室研究項(xiàng)目顯示，人工智能識(shí)別淺色皮膚男性的平均錯(cuò)誤率不超過(guò)1%，識(shí)別深色皮膚女性的平均錯(cuò)誤率達(dá)35%……

人臉識(shí)別所導(dǎo)致的偏見(jiàn)問(wèn)題一直受到廣泛關(guān)注。近期，一篇關(guān)于圖像超分辨率的論文引發(fā)了對(duì)于產(chǎn)生偏見(jiàn)原因的新?tīng)?zhēng)論。

網(wǎng)友利用論文中的開(kāi)源代碼進(jìn)行了模型推理，在使用時(shí)發(fā)現(xiàn)，非白人面孔的高糊照片被還原成了一張白人面孔。對(duì)此，2018年圖靈獎(jiǎng)得主、AI領(lǐng)軍人物楊立昆(Yann LeCun)在推特上指出，當(dāng)數(shù)據(jù)有偏見(jiàn)時(shí)，機(jī)器學(xué)習(xí)系統(tǒng)就變得有偏見(jiàn)。而這一觀點(diǎn)，掀起一場(chǎng)爭(zhēng)論浪潮。有人說(shuō)，機(jī)器學(xué)習(xí)系統(tǒng)產(chǎn)生偏見(jiàn)不應(yīng)只歸咎于數(shù)據(jù)集，這種甩鍋的做法是不公平的，還有技術(shù)、人類(lèi)觀念等原因。

現(xiàn)在還沒(méi)有100%無(wú)偏見(jiàn)的數(shù)據(jù)集

隨著人工智能時(shí)代的到來(lái)，人臉識(shí)別技術(shù)正被越來(lái)越廣泛地應(yīng)用在執(zhí)法、廣告及其他領(lǐng)域。然而，這項(xiàng)技術(shù)在識(shí)別性別、膚色等過(guò)程中，存在著一定偏見(jiàn)。

“在美國(guó)，人臉識(shí)別系統(tǒng)中白人男性的識(shí)別率最高，而黑皮膚女性的識(shí)別率則最低;在亞洲國(guó)家的人臉識(shí)別系統(tǒng)中黃種人的識(shí)別率相比白種人的識(shí)別率差距就會(huì)小一些。”福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院、福建省新媒體行業(yè)技術(shù)開(kāi)發(fā)基地副主任柯逍博士說(shuō)。

這次陷入爭(zhēng)論中心的人臉識(shí)別偏見(jiàn)問(wèn)題其實(shí)是一個(gè)存在很久、熱度很高的話題。

早前，美國(guó)麻省理工學(xué)院媒體實(shí)驗(yàn)室主導(dǎo)的一項(xiàng)名為《Gender Shades》的研究項(xiàng)目在研究了各個(gè)前沿科技公司的面部識(shí)別系統(tǒng)后發(fā)現(xiàn)，各系統(tǒng)在識(shí)別男性面臉與淺色面臉?lè)矫姹憩F(xiàn)更佳，淺色皮膚男性的平均識(shí)別錯(cuò)誤率不超過(guò)1%，淺色皮膚女性的平均識(shí)別錯(cuò)誤率約為7%，深色皮膚男性的平均識(shí)別錯(cuò)誤率約為12%，深色皮膚女性的平均識(shí)別錯(cuò)誤率則高達(dá)35%。

那么本次爭(zhēng)議中，楊立昆指出的數(shù)據(jù)集問(wèn)題是如何產(chǎn)生偏見(jiàn)的?有無(wú)100%沒(méi)有偏見(jiàn)的數(shù)據(jù)集?“不均衡的數(shù)據(jù)，導(dǎo)致了系統(tǒng)在學(xué)習(xí)時(shí),更好地?cái)M合了比重較大的數(shù)據(jù)，而對(duì)占比小的數(shù)據(jù)的擬合則表現(xiàn)不佳，這就可能最終導(dǎo)致了偏見(jiàn)的產(chǎn)生。”柯逍介紹說(shuō)，如一個(gè)常見(jiàn)的人臉識(shí)別數(shù)據(jù)集LFW，數(shù)據(jù)集中有近77%的男性，同時(shí)超過(guò)80%是白人。

“目前，幾乎可以肯定的是沒(méi)有100%無(wú)偏見(jiàn)的數(shù)據(jù)集。”柯逍舉例說(shuō)，在收集數(shù)據(jù)時(shí)，可以針對(duì)性地讓男性與女性數(shù)目一樣，甚至也可以讓各種膚色的數(shù)據(jù)數(shù)目都一樣。但是，其中可能大部分人是沒(méi)有戴眼鏡的，這可能就對(duì)戴眼鏡的人進(jìn)行識(shí)別時(shí)帶來(lái)了偏見(jiàn)。進(jìn)一步講，各個(gè)年齡段的人臉也很難做到完全一致，導(dǎo)致最后學(xué)習(xí)到的模型可能對(duì)戴眼鏡、年長(zhǎng)或年幼的人臉產(chǎn)生偏見(jiàn)。所以有時(shí)候討論數(shù)據(jù)偏見(jiàn)的產(chǎn)生，會(huì)發(fā)現(xiàn)其產(chǎn)生的原因是考慮問(wèn)題的角度不同。

出現(xiàn)偏見(jiàn)不能只歸咎于數(shù)據(jù)

眾多專(zhuān)家也指出，數(shù)據(jù)可能是機(jī)器學(xué)習(xí)系統(tǒng)中偏見(jiàn)的來(lái)源，但不是唯一的來(lái)源。

其實(shí)，在本次爭(zhēng)議中，楊立昆在推特中已經(jīng)很明確地表示，他的本意并不是說(shuō)問(wèn)題都出在數(shù)據(jù)集上，只是針對(duì)這篇論文，其算法在特定場(chǎng)景下，換個(gè)數(shù)據(jù)集就能解決問(wèn)題，但并不是說(shuō)所有的機(jī)器學(xué)習(xí)系統(tǒng)偏見(jiàn)都來(lái)源于數(shù)據(jù)集。

那么，誰(shuí)才是產(chǎn)生偏見(jiàn)真正的“幕后推手”?

AI學(xué)習(xí)過(guò)程應(yīng)該是架構(gòu)、數(shù)據(jù)、訓(xùn)練算法等的相互作用。算法包括了特征的選擇、損失函數(shù)的選擇、訓(xùn)練方法的選擇以及超參數(shù)調(diào)節(jié)等，其本身的缺陷也是偏見(jiàn)產(chǎn)生的一個(gè)原因。

2019年12月，美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院進(jìn)行的一項(xiàng)研究發(fā)現(xiàn)，在大多數(shù)當(dāng)前評(píng)估的人臉識(shí)別算法中，跨人種差異確實(shí)存在廣泛的準(zhǔn)確性偏差。

柯逍介紹說(shuō)，在算法設(shè)計(jì)的時(shí)候，往往會(huì)選擇L1損失函數(shù)或者L2損失函數(shù)。若在將一個(gè)低分辨率人臉圖像還原成高分辨率人臉圖像的方法中，使用L2損失函數(shù)，得到的大多數(shù)人臉圖像更像白人;而使用L1損失函數(shù)，得到大多數(shù)人臉圖像更像黑人。這說(shuō)明由于損失函數(shù)的選擇不同，某個(gè)群體(黑人或白人)在一定程度上就會(huì)受算法的忽視，進(jìn)而產(chǎn)生偏見(jiàn)。

這當(dāng)中還存在另一種情況，假如數(shù)據(jù)帶有少量的偏見(jiàn)，算法系統(tǒng)會(huì)將其放大，并變得更具有偏見(jiàn)。一項(xiàng)研究表明，如果初始數(shù)據(jù)中，下廚與女性的聯(lián)系概率是66%，將這些數(shù)據(jù)喂給人工智能后，其預(yù)測(cè)下廚與女性聯(lián)系起來(lái)的概率會(huì)放大到84%。一般來(lái)說(shuō)，機(jī)器學(xué)習(xí)系統(tǒng)會(huì)選擇最符合通用情況的策略，然而這樣會(huì)導(dǎo)致一些非典型情況或較為特殊情況被忽略。

除此之外，產(chǎn)生偏見(jiàn)的原因還有相似性的偏見(jiàn)。信息推送系統(tǒng)總會(huì)向用戶(hù)推薦他已經(jīng)看到、檢索過(guò)的相關(guān)內(nèi)容。最終的結(jié)果是導(dǎo)致流向用戶(hù)的信息流都是基于現(xiàn)存的觀點(diǎn)和看法。“系統(tǒng)會(huì)自動(dòng)幫助用戶(hù)屏蔽與他們意見(jiàn)相左的信息，這就催生了一個(gè)信息泡沫，用戶(hù)看到的都是人工智能讓你看到的。這種偏見(jiàn)根本上也是數(shù)據(jù)與算法共同作用產(chǎn)生的。”柯逍說(shuō)。

“總體而言，偏見(jiàn)還是源于規(guī)則制定者。”中銳網(wǎng)絡(luò)人工智能產(chǎn)品總監(jiān)葉亮說(shuō)，工程師從頭到尾參與了整個(gè)系統(tǒng)設(shè)計(jì)，尤其是機(jī)器學(xué)習(xí)的目標(biāo)設(shè)定。算法就好像一只嗅探犬，當(dāng)工程師向它展示特定東西的氣味后，它才能夠更加精準(zhǔn)地找到目標(biāo)。

算法糾偏工具已經(jīng)上崗

近期，國(guó)際多家機(jī)構(gòu)相繼宣布禁用人臉識(shí)別技術(shù)。有色人種被還原成白人的事件，再次掀起了人們對(duì)于人工智能系統(tǒng)產(chǎn)生偏見(jiàn)的批判浪潮，也再次警醒人們，技術(shù)帶有偏見(jiàn)所帶來(lái)的潛在危機(jī)。

偏見(jiàn)可能導(dǎo)致無(wú)辜者蒙冤。在2018年夏天，英國(guó)媒體就報(bào)道過(guò)，由于人臉識(shí)別技術(shù)的誤判，導(dǎo)致一名年輕黑人男性被誤認(rèn)為嫌疑犯，在公眾場(chǎng)合被警察搜身。

也有報(bào)告顯示，一些國(guó)外執(zhí)法機(jī)構(gòu)可以根據(jù)AI識(shí)別出的發(fā)色、膚色和面部特征對(duì)視頻中的人物進(jìn)行檢索。這種技術(shù)上的偏見(jiàn)也在一定程度上放大了人們的偏見(jiàn)。

除了對(duì)人種與性別的識(shí)別偏差之外，人臉識(shí)別技術(shù)還因其在侵犯隱私方面的問(wèn)題而引起擔(dān)憂(yōu)。2020年初，美國(guó)一家人臉識(shí)別技術(shù)公司便受到了嚴(yán)密的審查，有關(guān)部門(mén)發(fā)現(xiàn)，其面部識(shí)別工具由超過(guò)30億張圖像構(gòu)建而成，然而這些圖像大部分都是通過(guò)抓取社交媒體網(wǎng)站收集的，并且已被許多企業(yè)廣泛使用。

偏見(jiàn)存在的同時(shí)，一批新興的算法糾偏工具也涌入了人工智能。

早在2018年，臉書(shū)曾發(fā)布一個(gè)算法模型，表示會(huì)在算法因種族、性別、年齡等因素做出不公正判斷時(shí)發(fā)出警告以提醒開(kāi)發(fā)者;2019年麻省理工學(xué)院就提出了一種糾偏算法，可以通過(guò)重新采樣來(lái)自動(dòng)消除數(shù)據(jù)偏見(jiàn)。

那么克服偏見(jiàn)還需要人工智能技術(shù)做出哪些努力?“開(kāi)源方法和開(kāi)源技術(shù)都有著極大的潛力改變算法偏見(jiàn)。”葉亮指出，開(kāi)源方法本身十分適合消除偏見(jiàn)程序，開(kāi)源社區(qū)已經(jīng)證明它能夠開(kāi)發(fā)出強(qiáng)健的、經(jīng)得住嚴(yán)酷測(cè)試的機(jī)器學(xué)習(xí)工具。如果線上社團(tuán)、組織和院校能夠接受這些開(kāi)源特質(zhì)，那么由開(kāi)源社區(qū)進(jìn)行消除算法偏見(jiàn)的機(jī)器設(shè)計(jì)將會(huì)順利很多。

柯逍認(rèn)為，可以看出偏見(jiàn)基本來(lái)源于數(shù)據(jù)與算法，加強(qiáng)對(duì)人工智能所使用的數(shù)據(jù)、算法以及模型的評(píng)估，能夠在一定程度上緩解潛在的、可導(dǎo)致偏見(jiàn)與歧視的因素。同時(shí)，人工智能的偏見(jiàn)其實(shí)都是人類(lèi)偏見(jiàn)的反映與放大，因此人們放下偏見(jiàn)才是最根本的解決方案。(記者謝開(kāi)飛通訊員許曉鳳王憶希)

无码一区二区三区爆白浆_国产原产精品影院_最新国产剧全集在线观看_黑人粗大爽天天视频_亚洲一区二区无码中字幕

誰(shuí)才是讓AI產(chǎn)生偏見(jiàn)的幕后推手？現(xiàn)在還沒(méi)有100%無(wú)偏見(jiàn)的數(shù)據(jù)集