寥寥數(shù)語生成60秒視頻 Sora能否改變影視行業(yè)？--藝術(shù)--中國作家網(wǎng)

OpenAI發(fā)布文生視頻大模型引關(guān)注寥寥數(shù)語生成60秒視頻 Sora能否改變影視行業(yè)？

來源：解放日報　|　俞陶然　　2024年02月20日08:29

Sora生成的視頻截圖

近期，OpenAI公司發(fā)布的文生視頻大模型Sora引發(fā)全球關(guān)注。只要輸入一句或寥寥幾句描述畫面情節(jié)的提示詞，它就能生成一段時長60秒的視頻。這些視頻的質(zhì)量和準確性達到了令人驚艷的程度。

Sora的技術(shù)原理是什么？其應(yīng)用價值有多大？記者采訪了上海交通大學計算機科學與工程系教授趙海。

趙海教授介紹，Sora屬于多模態(tài)混合模型，由大語言模型和文圖生成器拼接而成。純文圖生成模型對提示詞的理解能力很弱。比如，用戶輸入“世界和平”，它往往無法生成準確的圖片。如果把文圖生成器與大語言模型拼接在一起，后者就能把“世界和平”轉(zhuǎn)化為和平鴿、橄欖枝等文圖生成器“看得懂”的提示詞，從而生成切題的作品。

文圖生成器經(jīng)改造后，也能生成視頻。因此，從文圖生成器過渡到文生視頻大模型，不需要很大的技術(shù)突破，研發(fā)團隊主要依靠的是大算力、大模型、大樣本訓練數(shù)據(jù)等“先天條件”。“這些條件都是OpenAI所具備的，所以Sora的問世不能算技術(shù)革命，而是工程實踐的成功。”趙海說。

Sora展示的一批文生視頻案例令人驚艷。比如，輸入這樣一段提示詞：“一位時尚女性走在充滿霓虹燈和城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，涂著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。”Sora根據(jù)這段話生成的60秒視頻效果頗佳，頭發(fā)、服裝等細節(jié)都沒問題，并實現(xiàn)了連貫的場景轉(zhuǎn)換，達到以假亂真的水平。

Sora與同類產(chǎn)品相比，具有三大優(yōu)勢——60秒時長、單視頻包含多角度鏡頭、遵循部分物理規(guī)律。

Sora問世前，同類產(chǎn)品只能根據(jù)提示詞生成5秒以內(nèi)的短視頻。Sora的作品不僅長達1分鐘，而且有多角度鏡頭，這些鏡頭里的人和物還能保持前后一致性，不會因角度變換而出現(xiàn)問題。在對物理規(guī)律的掌握方面，Sora也有不俗表現(xiàn)，比如在其生成的一段SUV（運動型多用途汽車）行駛視頻中，汽車影子與車身始終契合。

不過，Sora的作品也存在不少瑕疵。如輸入“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，視頻中狼的數(shù)量會莫名改變，幾只狼憑空出現(xiàn)或消失。趙海分析：“目前的文圖生成器對數(shù)字不夠敏感，比如生成的一些手會有6根手指，今后要加強這方面的訓練。”

在他看來，視頻大模型將改變影視行業(yè)的游戲規(guī)則。以技術(shù)含量最高的科幻電影為例，目前拍攝一部科幻大片往往需要數(shù)年時間，視頻大模型用于這個領(lǐng)域后，特效畫面的制作時間有望縮短到幾天，從而大幅降低科幻電影拍攝的時間成本和技術(shù)門檻。視頻攝制成本的降低，也將給傳媒行業(yè)帶來變革。今后，部分視頻的攝制也許只要在電腦前輸入一些提示詞，省去了現(xiàn)場拍攝、后期剪輯等耗時費力的過程。

亚洲gv永久无码天堂网,成年人夜晚在线观看免费视频 ,国产福利片在线观不卡,色噜噜狠狠网站狠狠爱

中國作家協(xié)會主管

OpenAI發(fā)布文生視頻大模型引關(guān)注寥寥數(shù)語生成60秒視頻 Sora能否改變影視行業(yè)？

亚洲gv永久无码天堂网,成年人夜晚在线观看免费视频 ,国产福利片在线观不卡,色噜噜狠狠网站狠狠爱

OpenAI發(fā)布文生視頻大模型引關(guān)注 寥寥數(shù)語生成60秒視頻 Sora能否改變影視行業(yè)？

OpenAI發(fā)布文生視頻大模型引關(guān)注寥寥數(shù)語生成60秒視頻 Sora能否改變影視行業(yè)？