2024 iThome 鐵人賽

DAY 8

AI/ ML & Data

認識AI與NLP的30日旅行團系列第 8 篇

Day8 AI影片生成的原理和發展

16th鐵人賽 ai影片 sora luma

初墨 Roy

2024-09-22 23:54:47

416 瀏覽

分享至

人的需求是永遠不會被滿足的，當圖片可以備生成，並且達到勘用地步的時候，就開始在想啦，那影片呢？圖片我不想自己畫，影片我也不想啊！

今天就來談談AI影片生成的原理，以及為什麼現在還有問題的原因吧。

AI影片生成的原理

在談AI之前，先講講影片的本質……

在談AI之前，我們先來講講一般影片的原理，影片其實就是一段時間中一連串圖片的組合。

可以想像一下，我們現在所看到的每0.0000000001秒都是眼睛所拍到的一張圖片，經由大腦把他們組合好後，才呈現出了我們每時每刻看到的樣子。

影片也是一樣，照相機在一段時間中快速的拍攝照片，並把它們組合好後，就成為我們現在用的影片。

AI生成影片的概念

那知道了影片的原理，接下來對於AI怎麼生成影片也會好理解許多。

因為影片是一張張圖片組成、串連後所誕生的產物，那我們反向推導一下，既然AI圖片生成技術已經夠發達了，我們只要把每一張照片都生成好、組合，不就是我們要的影片了嗎？

嘿，想法是沒錯的，但問題就是出現在這裡。來看看AI影片生成的發展史就可以了解為什麼出了問題－－

第一階段、影片生成影片

研究人員照著這個想法去發想，最開始的時候，是用影片去生成影片，畢竟依照想法「把每禎圖片轉換後再組合」的想法，用原先舊城系列的圖片生成，總會比從零開始要簡單。

所以在經過一系列實驗後，就華麗麗的失敗了。

……欸？

但其實如果細講的話，也不完全失敗，因為這個想法是可行的，把所有圖片轉換後，的確可以產出影片。

不過問題就出在「轉換」上。

有使用過AI圖像生成的人應該都知道，每張AI生成出來的圖片，即使設定的參數一樣，出來的圖片也會不同。雖然可以設定隨機種子，但是隨機種子只有「在相同的時候才會一樣」，除了相同的數字，只要差一點點也會有很大的差異。

這些差異在生成圖片的時候問題還不大，但在影片上……問題就大了。

影片在一秒內就至少有24張圖片，這樣算下來，僅僅30秒的圖片就至少有720張圖片、10分鐘更達到了驚人的14400張。

光是兩張圖片生成出來就不一樣了，在這樣的數量下，要保持每一張的風格、動作都上下相近、不出差錯，可謂是難上加難。

所以在前期出來的成果上，可以發現影片每時每刻都會有「毛邊」，視覺上也是卡卡的，即使是最成功的案例，還是會有些許的不協調感。

當然，經過技術的步段改進，現在的成果也有好一些，但仍然有進步的空間。

第二階段、圖片延展出影片

比如讓圖片上的人嘴巴動起來開口說話、向前走幾步、臉左右轉等等，都是這個類型。

但這個的應用程度以我的看法，比影片生影片還要窄，就有些類似一個玩具。因為在原始圖片後的動作都是從原始圖片去發展的，其實光是想法就很有限了，況且最重要的是，效果也沒有比較好，該有的毛邊還是在、不協調感也還是不協調。

比如說，放一個人的照片，它的確是動了，但只有眼睛跟嘴巴動，其他肌肉該棟的卻固定住了，怎麼看怎麼奇怪……

第三階段、文字生成圖片

到了第三步驟，才是真正的所謂「生成」，前面的兩種都只是轉換或延展。但在概念上都是同樣的，用一連串的圖片去產生動態的影片，像Sora、Luma等等就是此類。

利用文字生成的確創意、驚喜感多了一點，不會再是從固有資料中去做延伸，但是同樣的，驚悚也多了一些。

光是五到十秒的影片，明明定下的Prompt是美女轉身，你可以看到美女轉身之後變了一個人，這還是好的……變成長著粗鬍渣的一米八大漢、全身是毛的野獸，或半身變成了骷髏－－只能說只有你想不到的，沒有它變不出來的。

當然，幾秒鐘的影片效果已經算比較好了，許多人也生成出了不錯的結果，但是當影片時間越長，出現意外的可能、機會也越多。他非常真實的體現了這句話：「你永遠不知道下一秒出現的會是什麼」。

上面說了這麼多，好像很多篇幅都在說影片生成的技術不太靠譜，但我想提醒大家的是，這畢竟是一個近期仍在被探索的科技，沒人知道未來的發展。（好話壞話都自己說了）

大家可以期待明年的今天會不會是導演滿地跑的時代，想想都讓人覺得有趣。

說不定明天就出現了個驚為天人的應用也說不定呢！

Day7 AI圖像處理－去背、圖片放大轉高清、去除物品、加入物品

Day9 AI音樂（生成、聲音轉換、音樂訓練、抓出純人聲）

系列文

認識AI與NLP的30日旅行團共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22211 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

認識AI與NLP的30日旅行團系列 第 8 篇