OpenAI發(fā)布文生視頻大模型引關(guān)注 寥寥數(shù)語生成60秒視頻 Sora能否改變影視行業(yè)?
Sora生成的視頻截圖
近期,OpenAI公司發(fā)布的文生視頻大模型Sora引發(fā)全球關(guān)注。只要輸入一句或寥寥幾句描述畫面情節(jié)的提示詞,它就能生成一段時長60秒的視頻。這些視頻的質(zhì)量和準確性達到了令人驚艷的程度。
Sora的技術(shù)原理是什么?其應(yīng)用價值有多大?記者采訪了上海交通大學計算機科學與工程系教授趙海。
趙海教授介紹,Sora屬于多模態(tài)混合模型,由大語言模型和文圖生成器拼接而成。純文圖生成模型對提示詞的理解能力很弱。比如,用戶輸入“世界和平”,它往往無法生成準確的圖片。如果把文圖生成器與大語言模型拼接在一起,后者就能把“世界和平”轉(zhuǎn)化為和平鴿、橄欖枝等文圖生成器“看得懂”的提示詞,從而生成切題的作品。
文圖生成器經(jīng)改造后,也能生成視頻。因此,從文圖生成器過渡到文生視頻大模型,不需要很大的技術(shù)突破,研發(fā)團隊主要依靠的是大算力、大模型、大樣本訓練數(shù)據(jù)等“先天條件”。“這些條件都是OpenAI所具備的,所以Sora的問世不能算技術(shù)革命,而是工程實踐的成功。”趙海說。
Sora展示的一批文生視頻案例令人驚艷。比如,輸入這樣一段提示詞:“一位時尚女性走在充滿霓虹燈和城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。”Sora根據(jù)這段話生成的60秒視頻效果頗佳,頭發(fā)、服裝等細節(jié)都沒問題,并實現(xiàn)了連貫的場景轉(zhuǎn)換,達到以假亂真的水平。
Sora與同類產(chǎn)品相比,具有三大優(yōu)勢——60秒時長、單視頻包含多角度鏡頭、遵循部分物理規(guī)律。
Sora問世前,同類產(chǎn)品只能根據(jù)提示詞生成5秒以內(nèi)的短視頻。Sora的作品不僅長達1分鐘,而且有多角度鏡頭,這些鏡頭里的人和物還能保持前后一致性,不會因角度變換而出現(xiàn)問題。在對物理規(guī)律的掌握方面,Sora也有不俗表現(xiàn),比如在其生成的一段SUV(運動型多用途汽車)行駛視頻中,汽車影子與車身始終契合。
不過,Sora的作品也存在不少瑕疵。如輸入“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,視頻中狼的數(shù)量會莫名改變,幾只狼憑空出現(xiàn)或消失。趙海分析:“目前的文圖生成器對數(shù)字不夠敏感,比如生成的一些手會有6根手指,今后要加強這方面的訓練。”
在他看來,視頻大模型將改變影視行業(yè)的游戲規(guī)則。以技術(shù)含量最高的科幻電影為例,目前拍攝一部科幻大片往往需要數(shù)年時間,視頻大模型用于這個領(lǐng)域后,特效畫面的制作時間有望縮短到幾天,從而大幅降低科幻電影拍攝的時間成本和技術(shù)門檻。視頻攝制成本的降低,也將給傳媒行業(yè)帶來變革。今后,部分視頻的攝制也許只要在電腦前輸入一些提示詞,省去了現(xiàn)場拍攝、后期剪輯等耗時費力的過程。