相信大家已經看到很多AI的播報員了,而Stable diffusion上也有外掛可以做到這件事。就是SadTalker,它本身就是一個獨立project,這是它的GitHub,但也支援掛在stable diffusion上。
在Extensions裡面的Available裡面就可以找到,裝完後要下載model,可點選此連結,分為兩種,pre-trained models下載後都放在stable-diffusion-webui\extensions\SadTalker中創一個叫checkpoints的資料夾,而GFPGAN下載後解壓縮把裡面的gfpgan資料夾同樣放到stable-diffusion-webui\extensions\SadTalker
然後點選SadTalker標籤,左邊分別可上傳圖片和聲音檔,然後右邊是設定,按生成後mp4的影片就會產生在右下角。
這邊又是個爆顯存的挫折,如上圖成功的結果我圖片只能360x360的解析度,目前覺得still mode這個文靜版本還OK,預設不開會太俏皮,臉有很多動作反而會看到不自然的地方,另外GPFGAN建議開,如上圖中可看到影片中臉已經是比較糊的結果,相對於輸入的圖片,不開會更糊,是那種雜訊更多的感覺。