新殺手鐧Sora「文字轉影片」 馬斯克喊「gg humans」

由OpenAI推出的影像生成模型Sora,一出手就震撼市場,直接打趴了包括RUNWAY、Stable Video Diffusion、Pika等公司。(圖/陽明交大提供、翻攝自OPENAI官網)

▲由OpenAI推出的影像生成模型Sora,一出手就震撼市場,直接打趴了包括RUNWAY、Stable Video Diffusion、Pika等公司。(圖/陽明交大提供、翻攝自OPENAI官網)

圖文/CTWANT

不出手則已,一出手就是橫掃市場!OpenAI繼2022年11月底發表文字生成式AI「ChatGPT」,相隔才短短15個月,2月16日又推出影片生成AI模型「Sora」,一舉將AI應用從文字升級到影片,立馬驚艷全球,市場甚至對一分鐘以內短影片的動畫及廣告產業,湧現唱衰聲浪。

對於「Sora」的橫空出世,有網友在推特上發文,「gg Pixar(皮克斯動畫工作室)」,而特斯拉執行長馬斯克更直接回文表示,「gg humans」(意指AI將取代人類)。

而就在OpenAI發布「Sora」的前幾個小時,Google也在15日發表了最新的Gemini 1.5模型,可一次處理大量資訊,包括1小時的影片,不過經過網友們的測試,Gemini 1.5最後生成的產品一定都會「種族多元化」,遭到 Google暫時下架。

其實在2023年,也有數個影像生成軟體出現,包括RUNWAY Gen-2在6月推出,11月又有Stable Video Diffusion、Pika等模型推出,不過這些模型的影片生成能力,大多僅約3、4秒左右,最長不超過10秒。

而OpenAI的「Sora」一亮相,就立刻震撼全市場。「Sora 是一個AI模型,可根據文字指令創建現實且富有想像的場景,產生長達一分鐘的視頻,同時保持視覺品質並遵守用戶的提示。」也就是說,只要輸入「Prompt(提示)」文字敘述下指令,Sora就可以生成最長約1分鐘的真實度不低的影片。

OpenAI展示數十個由Sora所生成的影片,內容擬真度極高,像是「一名穿著時尚的女子走在充滿溫暖霓虹燈及招牌的東京街頭。她身著黑色皮夾克、紅色長裙及黑色靴子,拎著一個黑色包包,戴著太陽眼鏡,擦著紅色口紅,走起路來自信又隨性。潮濕的街道反射出七彩燈光,行人熙來攘往。」但影片也出現謬誤,例如「一個人在跑步機上跑步的場景,以35毫米拍攝的電影膠片。跑者卻是逆向在跑步機上跑步。」

一般認為,包括分鏡師在內的影像從業人員將受到最大的衝擊。圖為錄影示意圖。(圖/翻攝自GoodSpace.好空間網站)

▲一般認為,包括分鏡師在內的影像從業人員將受到最大的衝擊。(示意圖/CTWANT提供)

對此,OpenAI解釋,「我們正在教授人工智慧理解和模擬運動中的物理世界,目標是訓練模型幫助人們解決需要現實世界互動的問題。」「現實的物理原理及因果關係,仍是Sora最大的問題所在。」

儘管仍不盡完美,「相較於之前的影片生成AI,幾乎是小學生對於比大學生。」有Youtuber如此形容。

M觀點主持人Mulia認為,「Sora」的出現,勢必嚴重衝擊動畫及廣告產業,尤其廣告,一般頂多就是30秒左右,剛好就是「Sora」可處理的長度,他甚至預期,5年後,也許小說家可透過ChatGPT,將小說內容生成劇本,再透過Sora生成一小時影片。

知識力科技執行長曲建仲指出,目前OpenAI對於原理公開並不多,基本上就是使用了「變換模型(Transformer model)」及「擴散模型(Diffusion model)」來對影片結構做了全面創新。擴散模型(Diffusion model)是將真實圖片逐漸加入雜訊(Noise),讓圖片慢慢變成完全的雜訊圖片,再反轉這個過程,逐漸去除雜訊(Denoise),讓圖片回復為原來的樣子,叫做反向過程(Reverse process)。

「ChatGPT利用token(類似單詞的文字語意)來進行文字接龍,產生連續且具有意義的句子及文章,Sora就是利用圖片版的token也就是Patch,來創造出具有連貫性的圖片。」Youtube頻道泛科學院解釋道。「這也是AI變成人的里程碑。」

對於Sora的出現,「Sora對於動畫產業的影響,並非是全面衝擊,反而應該要這樣來看,畢竟AI的內容基礎,還是由照片來生成,也就是說,如果是紀實類的影片,例如人物類,由於AI已經很容易收集到相關內容所需資料,影響程度就會比較大,至於是創作型的影片,那Sora反倒是一個不錯的工具。」

知識力科技執行長曲建仲指出,OpenAI基本上就是使用了「變換模型(Transformer model)」及「擴散模型(Diffusion model)」來對影片結構做了全面創新。(圖/翻攝自曲博科技教室臉書、翻攝自魔法學院官網 )

▲知識力科技執行長曲建仲指出,OpenAI基本上就是使用了「變換模型(Transformer model)」及「擴散模型(Diffusion model)」來對影片結構做了全面創新。(圖/翻攝自曲博科技教室臉書、翻攝自魔法學院官網 )

Youtube頻道中二見習中製作人Raymond表示,很多影片在正式拍攝之前,都會有分鏡師先進行分鏡,最後再由導演來決定如何拍攝,Sora的出現,對於分鏡的作業將會有明顯的衝擊,但是對於編劇及導演來說,則是一個很好用的工具。「對於很多講述性質的Youtube頻道來說,Sora可以生成很多不同段的影片,讓他們的影片更加豐富。」

至於Sora需要多少的算力,來生成一則長度約60秒的影片?目前在論壇Reddit就有網友在討論,也有引用到外媒《Wired》的報導,推估,Sora生成一個1分鐘長度的影片,認為大約需要一個小時。這也說明了目前Sora並沒有開放給一般民眾使用,而是僅給OpenAI內部及部分的動畫家、導演等來測試。

而Sora何時會像ChatGPT一樣普及?目前OpenAI並沒有時間表。OpenAI正在跟「錯誤訊息、仇恨內容和偏見等領域的領域專家」對模型進行對抗性測試,另外也在建立工具來幫助偵測誤導性內容,例如偵測分類器,以判斷Sora何時產生影片。

延伸閱讀
Sora來襲2/從生成文字到影像 投資達人點名:儲存設備、高速傳輸「這幾檔股」受惠
醫師劈腿1/女坐高島屋10樓牆外被拉下 外套下竟穿男醫師袍
文青女神1/捕獲野生田馥甄!過年盡孝遛爸媽...女性友人相陪

分享給朋友:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

關鍵字:

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面