人的需求是永遠不會被滿足的,當圖片可以備生成,並且達到勘用地步的時候,就開始在想啦,那影片呢?圖片我不想自己畫,影片我也不想啊!
今天就來談談AI影片生成的原理,以及為什麼現在還有問題的原因吧。
在談AI之前,我們先來講講一般影片的原理,影片其實就是一段時間中一連串圖片的組合。
可以想像一下,我們現在所看到的每0.0000000001秒都是眼睛所拍到的一張圖片,經由大腦把他們組合好後,才呈現出了我們每時每刻看到的樣子。
影片也是一樣,照相機在一段時間中快速的拍攝照片,並把它們組合好後,就成為我們現在用的影片。
那知道了影片的原理,接下來對於AI怎麼生成影片也會好理解許多。
因為影片是一張張圖片組成、串連後所誕生的產物,那我們反向推導一下,既然AI圖片生成技術已經夠發達了,我們只要把每一張照片都生成好、組合,不就是我們要的影片了嗎?
嘿,想法是沒錯的,但問題就是出現在這裡。來看看AI影片生成的發展史就可以了解為什麼出了問題--
研究人員照著這個想法去發想,最開始的時候,是用影片去生成影片,畢竟依照想法「把每禎圖片轉換後再組合」的想法,用原先舊城系列的圖片生成,總會比從零開始要簡單。
所以在經過一系列實驗後,就華麗麗的失敗了。
……欸?
但其實如果細講的話,也不完全失敗,因為這個想法是可行的,把所有圖片轉換後,的確可以產出影片。
不過問題就出在「轉換」上。
有使用過AI圖像生成的人應該都知道,每張AI生成出來的圖片,即使設定的參數一樣,出來的圖片也會不同。雖然可以設定隨機種子,但是隨機種子只有「在相同的時候才會一樣」,除了相同的數字,只要差一點點也會有很大的差異。
這些差異在生成圖片的時候問題還不大,但在影片上……問題就大了。
影片在一秒內就至少有24張圖片,這樣算下來,僅僅30秒的圖片就至少有720張圖片、10分鐘更達到了驚人的14400張。
光是兩張圖片生成出來就不一樣了,在這樣的數量下,要保持每一張的風格、動作都上下相近、不出差錯,可謂是難上加難。
所以在前期出來的成果上,可以發現影片每時每刻都會有「毛邊」,視覺上也是卡卡的,即使是最成功的案例,還是會有些許的不協調感。
當然,經過技術的步段改進,現在的成果也有好一些,但仍然有進步的空間。
比如讓圖片上的人嘴巴動起來開口說話、向前走幾步、臉左右轉等等,都是這個類型。
但這個的應用程度以我的看法,比影片生影片還要窄,就有些類似一個玩具。因為在原始圖片後的動作都是從原始圖片去發展的,其實光是想法就很有限了,況且最重要的是,效果也沒有比較好,該有的毛邊還是在、不協調感也還是不協調。
比如說,放一個人的照片,它的確是動了,但只有眼睛跟嘴巴動,其他肌肉該棟的卻固定住了,怎麼看怎麼奇怪……
到了第三步驟,才是真正的所謂「生成」,前面的兩種都只是轉換或延展。但在概念上都是同樣的,用一連串的圖片去產生動態的影片,像Sora、Luma等等就是此類。
利用文字生成的確創意、驚喜感多了一點,不會再是從固有資料中去做延伸,但是同樣的,驚悚也多了一些。
光是五到十秒的影片,明明定下的Prompt是美女轉身,你可以看到美女轉身之後變了一個人,這還是好的……變成長著粗鬍渣的一米八大漢、全身是毛的野獸,或半身變成了骷髏--只能說只有你想不到的,沒有它變不出來的。
當然,幾秒鐘的影片效果已經算比較好了,許多人也生成出了不錯的結果,但是當影片時間越長,出現意外的可能、機會也越多。他非常真實的體現了這句話:「你永遠不知道下一秒出現的會是什麼」。
上面說了這麼多,好像很多篇幅都在說影片生成的技術不太靠譜,但我想提醒大家的是,這畢竟是一個近期仍在被探索的科技,沒人知道未來的發展。(好話壞話都自己說了)
大家可以期待明年的今天會不會是導演滿地跑的時代,想想都讓人覺得有趣。
說不定明天就出現了個驚為天人的應用也說不定呢!