電子發燒友網報道(文/梁浩斌)今年春節期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長達60秒的視頻生成長度,讓過去Pika Labs推出的Pika 1.0、去年Runway推出的Gen-1、谷歌團隊發布的VideoPoet等各種文生視頻模型都黯然失色。
然而,Sora在發布近4個月的時間里,依然沒有開放普通用戶使用,同時也沒有更多的視頻案例流出,目前只有官方發布的演示視頻。
最近,快手旗下的名為“可靈”的文生視頻大模型上線,與Sora不同的是,可靈發布即開放申請使用,目前已經有大量用戶獲得使用名額,社交平臺上已經有不少用戶上傳了可靈生成的視頻,甚至在海外AI圈迅速爆火。
對比Sora,可靈的效果如何?
快手在推出可靈時,很明確地表示可靈是“首個效果對標Sora且面向用戶開放的文生視頻大模型”。既然對標Sora,那么就要看下雙方的實際表現如何了。
首先從生成視頻的指標上看,Sora宣稱能夠輸出1080p分辨率,最長60秒的視頻,從OpenAI展示出的Demo來看,Sora的強大之處更在于物體模型的穩定,不僅是在單鏡頭運動中物體建模能夠保持一致性,即使是多鏡頭的畫面切換中,依然能夠保持色彩、畫面風格的一致。
可靈官方宣稱的指標是,支持長達2分鐘的電影級畫面輸出,支持720p和1080p視頻輸出,幀率30fps,同時支持多種寬高比。可靈采用3D時空聯合注意力機制,能夠更好地建模復雜時空運動,生成較大幅度運動的視頻內容,同時能夠符合運動規律。
提示詞:小男孩在花園里騎自行車經歷秋冬春夏四季變換
在一些演示視頻中,也可以看到可靈的物理建模比較穩定,在一分多鐘的長鏡頭畫面中,整體畫面一致性表現較為理想。
提示詞:微距鏡頭,火山在一個咖啡杯中噴發
文生視頻的一個重要應用就是生成現實中不存在的畫面,能夠充分將人的想象力轉化成視頻。Sora發布之初在咖啡杯中的海盜船令人印象深刻,可靈官方演示視頻中也有類似的案例。
提示詞:一個戴眼鏡的中國男孩在快餐店內閉眼享受美味的芝士漢堡
在“吃漢堡”的場景中,Sora此前的演示視頻已經較為真實地展示了漢堡的咬痕,但可靈添加了更多細節,不僅是漢堡在被咬后的缺口,同時小男孩咬下漢堡后嘴邊殘留的碎屑也展現出來了,更加符合物理規律。
不過,目前可靈內測的版本只支持5秒、720p分辨率的視頻,有博主測試同樣提示詞,可靈有時候理解相對Sora會較弱。
比如提示詞:動畫場景特寫了一個跪在融化的紅燭旁的毛茸茸的小怪物。藝術風格是3D和現實主義的,重點是照明和紋理。這幅畫的基調是驚奇和好奇,因為怪物睜大眼睛張著嘴凝視著火焰。它的姿勢和表情傳達出一種天真和頑皮的感覺,就好像它是第一次探索周圍的世界。暖色和戲劇性燈光的使用進一步增強了圖像的舒適氛圍。
這串細節描寫豐富的提示詞,Sora官網展示的效果是這樣的:
而可靈是這樣的:
當然,由于模型的不同,可能可靈的提示詞優化方向會與Sora有所區別。
但從效果來看,可靈與Sora已經十分接近,更重要的是,可靈已經開放公眾測試,Sora目前依然處于PPT階段。
文生視頻模型即將迎來大爆發?
盡管Sora表現依然有所領先,但此前Sora火爆出圈的短片《氣球人》被爆經過大量后期調整,三個人的團隊花了1.5至2周的時間才做出來,團隊自曝Sora生成的視頻素材最終用到影片里的只有1/300。
所以,Sora一直未開放使用或許也有實際效果不如預期的考慮。因此,可靈的強大之處在于,實打實地開放給創作者使用,目前在快手旗下的快影APP中就能申請使用資格,截至6月14日,已經有8萬人在排隊審核中。
同時,快手上已經出現大量采用可靈制作的短片,通過多個5秒的短鏡頭拼接而成,實際效果可見即可得。
而近期除了可靈之外,Luma AI也對外開放了其文生視頻模型Dream Machine,更是宣稱可以輸出120秒120幀的高質量視頻。
目前文生視頻模型,包括可靈、Sora等都采用了Diffusion Transformer作為整體架構,有觀點認為,Sora并不是技術性的突破,而是產品性的突破。即文生視頻實際上也是大模型應用的一個方向,而Sora就是其中一個突破性產品。
可靈領銜的文生視頻模型大規模應用,更是代表著這類產品的新高度。從產品上看,可以預見,未來半年里,國內外可能將會陸續涌現更多高質量的文生視頻大模型產品,并大大加快迭代的進度。
文生視頻大模型的爆發,將會有很大可能,徹底改變未來短視頻創作的生態。
-
Sora
+關注
關注
0文章
83瀏覽量
464
發布評論請先 登錄
泰克科技解析AI服務器電源架構的技術演進

PCIe 6.0時代的測試挑戰和解決方案

Ironwood開放式頂部BGA插座凸輪驅動桿
憶阻器存算一體技術深度解析

美洽榮登2024中國生成式AI 創新企業系列榜單-智能客服創新企業榜

評論