Sora,美國人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器”),于2024年2月15日(美國當(dāng)?shù)貢r(shí)間)正式對(duì)外發(fā)布。
Sora這一名稱源于日文“空”(そら sora),即天空之意,以示其無限的創(chuàng)造潛力。其背后的技術(shù)是在OpenAI的文本到圖像生成模型DALL-E基礎(chǔ)上開發(fā)而成的。
Sora可以根據(jù)用戶的文本提示創(chuàng)建最長(zhǎng)60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。繼承了DALL-E 3的畫質(zhì)和遵循指令能力,能理解用戶在提示中提出的要求。
Sora對(duì)于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生帶來無限可能,其是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃的其中一步,也標(biāo)志著人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力方面實(shí)現(xiàn)飛躍。
2024年12月10日,OpenAI正式向用戶開放人工智能視頻生成模型Sora。12月18日,文生視頻大模型Sora入選“2024全球十大工程成就”。
OpenAI在大模型領(lǐng)域的成功
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具能夠通過學(xué)習(xí)和理解人類的語言來進(jìn)行對(duì)話。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會(huì)到人工智能潛力的現(xiàn)象級(jí)產(chǎn)品,展現(xiàn)出了文字對(duì)于過去人工智能的理解力和邏輯能力的超越。隨后,OpenAI的開發(fā)重點(diǎn)逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破。
視覺算法的進(jìn)步
視覺算法近年來的突破在泛化性、可提示性、生成質(zhì)量和穩(wěn)定性等方面均取得了進(jìn)展,這預(yù)示著技術(shù)拐點(diǎn)的臨近以及爆款應(yīng)用的涌現(xiàn)。特別是在3D資產(chǎn)生成和視頻生成領(lǐng)域,由于擴(kuò)散算法的成熟,這些領(lǐng)域受益匪淺。然而,與圖像生成相比,3D資產(chǎn)和視頻生成在數(shù)據(jù)和算法方面面臨的難點(diǎn)更多。
盡管如此,考慮到大型語言模型(LLM)對(duì)人工智能各領(lǐng)域的加速作用以及已經(jīng)出現(xiàn)的優(yōu)秀開源模型,2024年該行業(yè)有望實(shí)現(xiàn)更大的發(fā)展。在2023年末至2024年初,Pika、HeyGen等人工智能生成的視頻應(yīng)用逐漸受到關(guān)注,這驗(yàn)證了多模態(tài)技術(shù)的持續(xù)進(jìn)步與成熟。但與此同時(shí),民主倡導(dǎo)者和人工智能研究人員警告說,這些工具已經(jīng)被用來欺騙和欺騙民眾。
Sora在日語中是“天空”(そら)的意思,引申含義還有“自由”,象征著其無限的創(chuàng)造潛力。
Sora對(duì)于需要制作視頻的藝術(shù)家、電影制片人或?qū)W生來說,都帶來了無限可能。該模型可以深度模擬真實(shí)物理世界,標(biāo)志著人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力方面實(shí)現(xiàn)飛躍,也被認(rèn)為是實(shí)現(xiàn)通用人工智能(AGI)的重要里程碑,通過不斷深入研究和發(fā)展Sora等先進(jìn)模型,有望在未來實(shí)現(xiàn)更加智能、高效和多樣化的視頻生成與處理技術(shù)。Sora的推出讓AIGC(生成式人工智能)再度成為行業(yè)焦點(diǎn),能否徹底“顛覆”行業(yè)也成為輿論議論的中心。
估值上漲
Sora發(fā)布后,OpenAI的估值迅速上漲(有望超過800億美元,2023年ChatGPT發(fā)布不久時(shí)其估值約為290億美元),且文生視頻大模型將會(huì)大幅推動(dòng)人工智能基礎(chǔ)設(shè)施的需求,英偉達(dá)、OpenAI、軟銀等巨頭公司都被曝正在進(jìn)行AI芯片的制造布局,英偉達(dá)也因大模型訓(xùn)練需要GPU算力支持而股價(jià)大漲。與此同時(shí),受Sora發(fā)布的影響,美國圖片供應(yīng)商Shutterstock的股價(jià)大跌。
在中國,龍年開市第一天,Sora相關(guān)概念全線“爆發(fā)”,會(huì)暢通訊、當(dāng)虹科技、萬興科技、易點(diǎn)天下、因賽集團(tuán)、東方國信、數(shù)碼視訊、華揚(yáng)聯(lián)眾、國脈文化等股票均大幅上漲,多家公司回應(yīng)稱,將根據(jù)自身業(yè)務(wù)特點(diǎn),在文生視頻技術(shù)落地、Sora應(yīng)用等方面尋找突破入口。
生產(chǎn)變革
浙商證券預(yù)測(cè),Sora及同類產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進(jìn)程中,PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn),UGC(用戶生成內(nèi)容)將借助AI工具逐步替代PGC。此間,AI生成視頻工具的商業(yè)化將提速。
Sora可生成一段長(zhǎng)達(dá)60秒的視頻,遠(yuǎn)超市面同類AI產(chǎn)品視頻生成時(shí)長(zhǎng),60秒的視頻時(shí)長(zhǎng),已經(jīng)超過抖音等短視頻平臺(tái)的平均視頻時(shí)長(zhǎng),Sora的誕生也為以后短視頻平臺(tái)的內(nèi)容生產(chǎn)提供了更大的可能性。
職業(yè)取代
截至2024年2月,已有一些視覺藝術(shù)家、設(shè)計(jì)師和電影制作人以及OpenAI員工獲得了Sora訪問權(quán)限,他們也已開始在社交平臺(tái)不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創(chuàng)意可能。許多網(wǎng)友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個(gè)素材行業(yè)。
功能綜述
Sora可以快速制作最長(zhǎng)一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻(其他AI視頻工具還在突破幾秒內(nèi)的連貫性),視頻可以呈現(xiàn)“具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景”。
靜態(tài)圖生成視頻
Sora還具備根據(jù)靜態(tài)圖像生成視頻的能力,能夠讓圖像內(nèi)容動(dòng)起來,并關(guān)注細(xì)節(jié)部分,使得生成的視頻更加生動(dòng)逼真,這一功能在動(dòng)畫制作、廣告設(shè)計(jì)等領(lǐng)域具有應(yīng)用前景。
視頻擴(kuò)展與缺失幀填充
Sora能夠獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域具有應(yīng)用前景,可以幫助用戶快速完成視頻內(nèi)容的補(bǔ)充和完善。
連接視頻
可以使用Sora連接兩個(gè)輸入視頻,在具有完全不同主題和場(chǎng)景組成的視頻之間實(shí)現(xiàn)無縫過渡。
多幀預(yù)測(cè)生成
Sora是一種擴(kuò)散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態(tài)噪音,通過多個(gè)步驟逐漸去除噪聲后,視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景,其能夠一次生成多幀預(yù)測(cè),確保畫面主體在暫時(shí)離開視野時(shí)仍保持一致。
特殊架構(gòu)
Sora采用與GPT模型相似的Transformer架構(gòu),OpenAI用Transformer結(jié)構(gòu)替代Diffusion模型中常用的U-Net結(jié)構(gòu),提升了原來Diffusion模型在深度和寬度上的可擴(kuò)展性,為視頻模型增加輸出時(shí)長(zhǎng)奠定基礎(chǔ)。Transformer架構(gòu)能夠處理長(zhǎng)序列數(shù)據(jù),并通過自注意力機(jī)制捕捉數(shù)據(jù)中的依賴關(guān)系,從而提高模型的生成能力。但為了解決Transformer架構(gòu)在長(zhǎng)文本和高分辨率圖像處理上的問題,擴(kuò)散模型采用更可擴(kuò)展的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)的注意力機(jī)制,從而減少了算力需求,并能夠生成高分辨率圖像。
重述提示詞
Sora借鑒DALL-E 3的“重述提示詞技術(shù)”,為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)注,這使得模型能夠更忠實(shí)地遵循用戶的文本指令,生成符合用戶需求的視頻內(nèi)容,同時(shí)也提高了模型的靈活性和可控性。
數(shù)據(jù)表示
OpenAI將視頻和圖像表示為Patch,類似于GPT中的token,這種統(tǒng)一的數(shù)據(jù)表示方式使得Sora能夠在更廣泛的視覺數(shù)據(jù)上進(jìn)行訓(xùn)練,涵蓋不同的持續(xù)時(shí)間、分辨率和縱橫比,有助于模型學(xué)習(xí)到更豐富的視覺特征,提高生成視頻的質(zhì)量和多樣性。
原生規(guī)模訓(xùn)練
Sora采用“原生規(guī)模訓(xùn)練”,過往的圖像和視頻生成通常會(huì)將視頻調(diào)整為標(biāo)準(zhǔn)大小,但這樣會(huì)失去視頻的原始長(zhǎng)寬比和細(xì)節(jié),而原生規(guī)模的訓(xùn)練方法可以帶來更好的效果。Sora可以對(duì)各種尺寸和縱橫比的視頻進(jìn)行采樣,允許直接為不同尺寸的設(shè)備創(chuàng)建內(nèi)容,并快速原型化較低分辨率的內(nèi)容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻。
故事板模版
Sora還包含一個(gè)名為故事板(Storyboard)的選項(xiàng),允許用戶通過它詳細(xì)描述希望視頻在不同時(shí)間點(diǎn)發(fā)生的內(nèi)容,從而更好地指導(dǎo)一系列片段的生成,用戶可以瀏覽其他人創(chuàng)作的視頻集錦。