AI進(jìn)化必須修復(fù)“注意力Bug”
在未經(jīng)充分訓(xùn)練的情況下,讓AI關(guān)注人是容易的,但關(guān)注某個(gè)特定的人是困難的。
在美劇《西部世界》中,AI主人公覺醒,并意識(shí)到這個(gè)世界是人類殺伐決斷的樂園,于是開啟了反抗之路;電影《黑客帝國(guó)》中,AI將人類豢養(yǎng)起來(lái),控制了整個(gè)世界……那么在科幻世界中擁有了意識(shí)的AI,在未來(lái)生活中能否實(shí)現(xiàn)?
日前,在2020年國(guó)際學(xué)習(xí)表征會(huì)議(ICLR)上,圖靈獎(jiǎng)得主、蒙特利爾學(xué)習(xí)算法研究所主任約書亞·本吉奧(Yoshua Bengio)對(duì)AI的未來(lái)提供了最新見解。他認(rèn)為未來(lái)機(jī)器學(xué)習(xí)完全有可能超越無(wú)意識(shí),向全意識(shí)邁進(jìn)。而注意力機(jī)制正是實(shí)現(xiàn)這一過(guò)程的關(guān)鍵要素。
人類的注意力機(jī)制和人工智能的注意力機(jī)制是否一樣?現(xiàn)在應(yīng)用于人工智能的注意力機(jī)制還要解決哪些bug,才能讓AI真正具備注意力?就此,科技日?qǐng)?bào)記者采訪了有關(guān)專家。
目的在于減少對(duì)無(wú)用線索的關(guān)注
什么是注意力機(jī)制?“注意力機(jī)制來(lái)源于人類的視覺注意力,即人類在進(jìn)化過(guò)程中形成的一種處理視覺信息的機(jī)制。”中國(guó)科學(xué)院自動(dòng)化研究所研究員張兆翔說(shuō)。
張兆翔解釋,人類視覺系統(tǒng)以大約每秒8.96兆比特的速度接收外部視覺信息,雖然人腦的計(jì)算能力和存儲(chǔ)能力都非常有限,但卻能有效的從紛繁蕪雜的外部世界中有選擇地處理重要的內(nèi)容,在這個(gè)過(guò)程中選擇性視覺注意發(fā)揮了重要的作用。如我們?cè)诳匆粋€(gè)畫面時(shí),會(huì)有一處特別顯眼的場(chǎng)景率先吸引我們的注意力,這是因?yàn)榇竽X對(duì)這類東西很敏感。
視覺注意機(jī)制的理論研究自20世紀(jì)80年代以來(lái)一直是神經(jīng)科學(xué)和認(rèn)知科學(xué)的熱點(diǎn)研究問題,目前研究者們一般按照兩類標(biāo)準(zhǔn)對(duì)注意機(jī)制進(jìn)行分類。“從注意產(chǎn)生的方向劃分為:自下而上數(shù)據(jù)驅(qū)動(dòng)的注意、自上而下任務(wù)驅(qū)動(dòng)的注意、兩者結(jié)合共同產(chǎn)生的注意;從關(guān)注的對(duì)象劃分為:基于空間的注意、基于特征的注意、基于對(duì)象的注意。”中國(guó)科學(xué)院自動(dòng)化研究所副研究員王威介紹說(shuō)。
“而對(duì)于人工智能來(lái)說(shuō),注意力機(jī)制是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理方法,廣泛應(yīng)用在自然語(yǔ)言處理、圖像識(shí)別及語(yǔ)音識(shí)別等各種不同類型的機(jī)器學(xué)習(xí)任務(wù)中,其主要功能是減少對(duì)無(wú)用線索的關(guān)注。”福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院、福建省新媒體行業(yè)技術(shù)開發(fā)基地副主任柯逍博士說(shuō)。
廈門大學(xué)科技處副處長(zhǎng)、人工智能系教授紀(jì)榮嶸認(rèn)為,從本質(zhì)上說(shuō),注意力機(jī)制是一個(gè)特征信息評(píng)估和篩選的過(guò)程。
一般認(rèn)為,深度學(xué)習(xí)中的注意力機(jī)制最早是約書亞·本吉奧等人在2014年提出的軟注意力機(jī)制。基于約書亞·本吉奧的這套理論后續(xù)又發(fā)展出了多步注意力機(jī)制、跨模態(tài)交互注意力以及時(shí)下非常火熱的Transformer網(wǎng)絡(luò)中的自注意力機(jī)制。
“目前研究的AI注意力機(jī)制各有各的特點(diǎn),但總的來(lái)說(shuō)就是構(gòu)建輸入與輸出,或者構(gòu)建輸入數(shù)據(jù)在不同層面上的關(guān)聯(lián)關(guān)系,從而達(dá)到重點(diǎn)突出部分區(qū)域或者數(shù)據(jù)間的部分關(guān)系,提升任務(wù)性能。”張兆翔說(shuō)。
未經(jīng)訓(xùn)練難以注意新鮮事物
最近幾年,注意力機(jī)制已被應(yīng)用到了人工智能的許多細(xì)分領(lǐng)域中。“人工智能是可以被設(shè)計(jì)出不同程度的注意力的。當(dāng)需要不同程度的注意力時(shí),我們可以設(shè)計(jì)多個(gè)注意力網(wǎng)絡(luò)。”柯逍說(shuō)。
據(jù)了解,從2016年開始,谷歌的翻譯系統(tǒng)就已經(jīng)使用了注意力機(jī)制來(lái)提升翻譯質(zhì)量。在文本問答、對(duì)話系統(tǒng)、知識(shí)圖譜抽取等自然語(yǔ)言處理任務(wù)中,注意力機(jī)制基本成為了模型標(biāo)配。在計(jì)算機(jī)視覺中,注意力機(jī)制的使用也成為了一種趨勢(shì),包括細(xì)粒度檢索、圖像分類、行人重識(shí)別等在內(nèi)的多個(gè)研究任務(wù)中都有使用注意力機(jī)制的視覺模型。
既然說(shuō)注意力機(jī)制來(lái)源于人類的視覺注意力,那么人類的注意力機(jī)制和人工智能的注意力機(jī)制是否一樣?
柯逍認(rèn)為,人工智能的注意力在一定程度上是人類視覺注意力機(jī)制的仿生,在功能上兩者是近似的,但實(shí)際上有很大的不同。
“從過(guò)程上來(lái)看是非常相似的,都是在給定任務(wù)(查詢)內(nèi)容時(shí),幫助人(或模型)去關(guān)注最相關(guān)的數(shù)據(jù)信息。” 紀(jì)榮嶸舉例說(shuō),如在被問及“桌子上有什么東西?”的時(shí)候,人類就會(huì)聚焦到桌子的區(qū)域。同樣,在視覺問答任務(wù)中,人工智能模型也會(huì)聚焦到包含有桌子的視覺區(qū)域,然后回答“有什么”。
紀(jì)榮嶸指出,從原理來(lái)說(shuō),人工智能的注意力機(jī)制主要是通過(guò)計(jì)算查詢信息與給定特征的語(yǔ)義關(guān)聯(lián)程度,來(lái)獲得模型的注意力分布,而人類的認(rèn)知系統(tǒng)則可能會(huì)更加復(fù)雜。
“人工智能運(yùn)用注意力的過(guò)程實(shí)際上是一個(gè)記憶查詢的過(guò)程,它很快很精確,但無(wú)法發(fā)現(xiàn)異常。”柯逍舉例說(shuō),如讓AI的注意力多次從同一張圖片上獲取關(guān)注區(qū)域信息,結(jié)果永遠(yuǎn)是一樣的;但如果讓人類來(lái)做這個(gè)事,人類看第一次的時(shí)候會(huì)關(guān)注自己感興趣的區(qū)域,但隨著觀察圖片次數(shù)增加,人類可能會(huì)關(guān)注這張圖片的其他區(qū)域。
柯逍指出,此外人類的注意力很容易就可以做到去關(guān)注某個(gè)特定的事物,比如人群中的某個(gè)人,但是AI注意力沒辦法在未經(jīng)充分訓(xùn)練的情況下做這件事,讓AI關(guān)注人是容易的,但關(guān)注某個(gè)特定的人是困難的。另外還有一點(diǎn)最大的差別是人類注意力會(huì)關(guān)注從未見過(guò)的新鮮事,而AI注意力機(jī)制不會(huì)。
與人類注意力相比差距明顯
據(jù)了解,認(rèn)知神經(jīng)科學(xué)對(duì)意識(shí)的定義是“對(duì)一個(gè)人內(nèi)在思想的感知,或者是對(duì)外部事物或內(nèi)在事物的察覺”。意識(shí)形成的過(guò)程是一個(gè)信息不斷篩選、處理以及演化的過(guò)程。
“約書亞·本吉奧在2017年的時(shí)候曾嘗試用機(jī)器學(xué)習(xí)的方法來(lái)證明這個(gè)理論,其中一個(gè)關(guān)鍵環(huán)節(jié)就是使用注意力機(jī)制去選擇‘意識(shí)狀態(tài)’。所以,從信息提煉的角度來(lái)說(shuō),注意力機(jī)制對(duì)形成機(jī)器意識(shí)是非常重要的。”紀(jì)榮嶸說(shuō)。
類比人類思維,AI注意力機(jī)制靠直覺還是靠推理?
“目前來(lái)說(shuō),人工智能的注意力機(jī)制更接近直覺。”柯逍說(shuō),大部分注意力機(jī)制,是在訓(xùn)練過(guò)程中重復(fù)告訴AI應(yīng)該注意哪些地方,哪些東西是有關(guān)聯(lián)的。如在訓(xùn)練AI的時(shí)候,不斷讓AI學(xué)習(xí)關(guān)注貓?jiān)诤舆叧贼~的區(qū)域,AI再看到有貓?zhí)卣骱汪~特征的圖片時(shí),就會(huì)關(guān)注貓和魚區(qū)域,而不會(huì)看到貓,看到河推理出可能有魚,然后再去找魚,再關(guān)注魚的區(qū)域。
“近期的注意力模型研究也有傾向于對(duì)推理能力的提升。”紀(jì)榮嶸舉例說(shuō),如近年熱門的Transformer模型就利用了多層的注意力網(wǎng)絡(luò)來(lái)不斷提煉和處理輸入的信息。在這一過(guò)程中,每一層的注意力結(jié)果都是在變化,從某種程度來(lái)說(shuō),可以認(rèn)為模型是在推理。
現(xiàn)在應(yīng)用于人工智能的注意力機(jī)制還要解決哪些問題,才能讓AI真正具備注意力?
“首先需要增加模型的知識(shí)儲(chǔ)備。當(dāng)模型有充足的知識(shí)后,才知道哪些信息需要去關(guān)注,例如,模型如果沒見過(guò)飛機(jī)的話,就不能很好地執(zhí)行關(guān)于飛機(jī)描述的查詢。”紀(jì)榮嶸說(shuō),另外還需要對(duì)注意力模型的結(jié)構(gòu)進(jìn)行改進(jìn),提升模型的推理能力,這樣模型才能夠在復(fù)雜的語(yǔ)境下運(yùn)用注意力完成復(fù)雜操作。
柯逍認(rèn)為,就目前來(lái)說(shuō),AI注意力和真正的人類注意力距離仍然很遙遠(yuǎn)。