最近,美國(guó)著名基因組學(xué)專家克雷格·文特爾(J. Craig Venter)在知名學(xué)術(shù)期刊《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)上發(fā)表了一篇論文,稱新的算法能通過(guò)分析個(gè)體的基因組信息來(lái)還原我們的長(zhǎng)相,將包括臉形、眼睛、發(fā)色甚至是聲音在內(nèi)的諸多臉部特征融合進(jìn)一張圖片之中。
左邊是真人照,右邊是預(yù)測(cè)圖
來(lái)源: Human Longevity
算法預(yù)測(cè)人臉
基于全基因組測(cè)序數(shù)據(jù),文特爾的研究團(tuán)隊(duì)召集了1061名年齡在18至82歲之間的人群參加,并且保證他們來(lái)自不同的種族。之后研究人員收集了這些樣本的3D面部圖像、聲音、眼睛、膚色、年齡、身高和體重等數(shù)據(jù),創(chuàng)建了預(yù)測(cè)模型。
就預(yù)測(cè)的情況來(lái)看,算法對(duì)瞳孔顏色、膚色和性別等簡(jiǎn)單特征的預(yù)測(cè)準(zhǔn)確率較高,但在聲音等其他更復(fù)雜的遺傳性狀上還存在比較多的困難。
此外,該團(tuán)隊(duì)還開(kāi)發(fā)了一種名為最大熵的機(jī)器學(xué)習(xí)算法,其創(chuàng)新之處在于它能找到所有預(yù)測(cè)模型的最佳組合,實(shí)現(xiàn)全基因組測(cè)序數(shù)據(jù)與人口統(tǒng)計(jì)數(shù)據(jù)的互相匹配。例如,10名參與者中能保證有8個(gè)來(lái)自不同種族,一半的人是非裔美國(guó)人或者歐洲移民。
“我們著手進(jìn)行這項(xiàng)研究是為了證明個(gè)體的基因組代碼記錄了關(guān)于個(gè)體的一切,” 文特爾說(shuō):“我們的預(yù)測(cè)模型是健全的,盡管目前的研究樣本有限,但是隨著數(shù)據(jù)庫(kù)中的研究人數(shù)增加到數(shù)十萬(wàn),我們將能夠更精準(zhǔn)地預(yù)測(cè)個(gè)體基因組中可預(yù)測(cè)的一切。”
論文的作者之一、數(shù)據(jù)科學(xué)家Lippert補(bǔ)充說(shuō):“這項(xiàng)研究顯示了成像技術(shù)對(duì)大量人物特征進(jìn)行篩選的潛力,機(jī)器學(xué)習(xí)能夠?qū)崿F(xiàn)全面自動(dòng)化的數(shù)據(jù)解釋,并在科學(xué)發(fā)現(xiàn)中起著至關(guān)重要的作用。”
試想一下,未來(lái)如果這種“身份反推”的算法可行的話,那么警察就可以通過(guò)提取血跡中的DNA還原出嫌疑犯的長(zhǎng)相了。
不能精準(zhǔn)預(yù)測(cè)
不過(guò),文特爾的論文一經(jīng)發(fā)表便在社交媒體上引起了不小的波瀾,很多人對(duì)于“基因預(yù)測(cè)人臉”這一結(jié)論的準(zhǔn)確性持保留態(tài)度。
美國(guó)另一家DNA檢測(cè)公司My Heritage的首席科學(xué)家、哥倫比亞大學(xué)計(jì)算機(jī)學(xué)助理教授Yaniv Erlich就在生命科學(xué)預(yù)印本網(wǎng)站BioRxiv上直言不諱地指出了論文存在的錯(cuò)誤,認(rèn)為其并沒(méi)有利用全基因組信息中的標(biāo)記物(比如人臉識(shí)別需要挖掘面部特征的標(biāo)記點(diǎn))來(lái)識(shí)別人的身份。
文特爾的基因檢測(cè)技術(shù)并不能準(zhǔn)確預(yù)測(cè)人臉。因?yàn)樵髡卟⒉恢滥骋惶囟▊€(gè)體的身高或面部結(jié)構(gòu),他們只是根據(jù)人口統(tǒng)計(jì)學(xué)上的平均值來(lái)進(jìn)行了預(yù)測(cè)。
事實(shí)上,Erlich一年前就吐槽過(guò)文特爾的預(yù)測(cè)算法。當(dāng)時(shí),文特爾利用算法“預(yù)測(cè)”出了自己DNA背后的臉部3D圖像,Erlich之后找了一張演員的真人照與預(yù)測(cè)圖像作對(duì)比,結(jié)果發(fā)現(xiàn),經(jīng)算法預(yù)測(cè)之后的照片看起來(lái)更像是一位名叫布萊德利·庫(kù)珀(Bradley Cooper)的美國(guó)影星。

文特爾真人照(左)、算法預(yù)測(cè)圖(中)、演員布萊德利·庫(kù)珀真人照(右)
Erlich說(shuō):“其實(shí)在相同的拍攝角度下,很多白人男性看起來(lái)都很像預(yù)測(cè)出的這張臉。”
曾擔(dān)任美國(guó) “科學(xué)”雜志審稿人的格里弗也透露,文特爾的基因預(yù)測(cè)技術(shù)并不能從人群中準(zhǔn)確地識(shí)別某一特定對(duì)象,論文兩次都未通過(guò)該雜志的審查,在此之前文章也遭遇了因找不到出版商而難以發(fā)表的情況。
算法預(yù)測(cè)人臉究竟可不可行?
在遺傳學(xué)中,諸如瞳孔顏色、膽固醇水平等被稱為“表型”。表型或多或少是由生物特定的DNA或基因型決定的。
“這就是為什么從DNA中識(shí)別特定個(gè)體的面孔不僅僅在理論上是可行的,而且是可能的,”在賓夕法尼亞州立大學(xué)從事基因面部預(yù)測(cè)研究的Mark Shriver說(shuō),“我認(rèn)為這是我們的未來(lái)。”
但是因?yàn)殚L(zhǎng)相的影響因素比較復(fù)雜(五官尺寸、面容比例、脂肪厚度、毛發(fā)密度等一系列因素都會(huì)極大地影響一個(gè)人的長(zhǎng)相),因此想要確切地知道DNA對(duì)于面部特征的作用(或者從DNA里讀出面部特征的諸多信息)還需要不斷地進(jìn)行深入研究。
并且,文特爾團(tuán)隊(duì)近幾年在“算法預(yù)測(cè)人臉”這條路上闊步前進(jìn)的同時(shí)也在有意引導(dǎo)人們?cè)絹?lái)越重視個(gè)人隱私。
試想一下,如果上文提到的警察應(yīng)用算法還原嫌疑人長(zhǎng)相的事情成為現(xiàn)實(shí)的話,這在某種程度上意味著出于研究目的而收集的基因組將因此而失去其私有屬性,不再真正為個(gè)體所有。
文特爾認(rèn)為基因組數(shù)據(jù)(特別是公共數(shù)據(jù))具有嚴(yán)重的隱私風(fēng)險(xiǎn)。也就是說(shuō),如果有人可以訪問(wèn)我們的基因組,那么他們可能會(huì)通過(guò)生成預(yù)測(cè)照片來(lái)找到我們。
不過(guò)文特爾提及“基因檢測(cè)行業(yè)存在隱私風(fēng)險(xiǎn)”這一點(diǎn)也是為了自我營(yíng)銷。因?yàn)樗J(rèn)為像他創(chuàng)立的“人類長(zhǎng)壽”這樣的私人數(shù)據(jù)庫(kù)更有可能為個(gè)體提供必要的保護(hù)。
據(jù)了解,人類長(zhǎng)壽公司(Human Longevity Inc)由文特爾與干細(xì)胞先驅(qū)羅伯特·哈里里和XPRIZE基金會(huì)創(chuàng)始人彼得·迪曼蒂斯組建,該公司試圖利用基因組和干細(xì)胞療法,尋找相應(yīng)的治療藥物,最終實(shí)現(xiàn)延緩衰老、保持健康和身體機(jī)能的目標(biāo)。
本文由 新型建材網(wǎng)http://www.ghjob.com.cn

