今天我們會將Gemin提供的各種免費且好用的功能都接上,並且將輸入的格式從文字擴充到可接受圖片、語音。
首先我們先從處理多模態輸入開始,為了要能夠接受圖片和音訊輸入,我們需要能夠轉換圖片跟音訊的節點。
圖片和音訊轉換我都選擇使用Google提供的語音、圖片轉文字服務,也是用Gemini來轉換:
在接收到輸入以後,我會先用switch節點判斷輸入的內容是文字、圖片還是音訊,在使用對應的轉換方式來將他們轉換成Agent能夠接受的輸入格式,最後再統整成一個Json檔。這樣一來我們就完成了多模態的輸入了。
解決完輸入以後,就可以來看到我們要怎麼將圖生圖的功能加進這個工作流中:
同樣我們需要再新增一個工作流,並且使用跟文生圖一樣的流程,只不過這次的輸入需要多新增一個Base64格式:
上面的觸發器是用來測試用的,而我們輸出的結果最終會用一個set節點來將圖片的base64編碼、圖片類型回傳給agent。
這樣子我們就又為Agent增加了一些實用的功能,不過這樣遠遠還不能稱上一個好用的助理,所以我還會再為它新增更多的功能。
今天我們完成了Gemini圖生圖功能,並且也成功讓助理可以接受多個格式的輸入,明天我們將會為這個助理繼續新增更多功能,例如新增網路搜尋、查看Email重要訊息等,明天將會逐個完成。