Day17 - 為Agent接上工具(多模態輸入、Gemini圖生圖) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 17

生成式 AI

Day17 - 為Agent接上工具(多模態輸入、Gemini圖生圖)

17th鐵人賽

251 瀏覽

今天我們會將Gemin提供的各種免費且好用的功能都接上，並且將輸入的格式從文字擴充到可接受圖片、語音。

首先我們先從處理多模態輸入開始，為了要能夠接受圖片和音訊輸入，我們需要能夠轉換圖片跟音訊的節點。

圖片和音訊轉換我都選擇使用Google提供的語音、圖片轉文字服務，也是用Gemini來轉換:

在接收到輸入以後，我會先用switch節點判斷輸入的內容是文字、圖片還是音訊，在使用對應的轉換方式來將他們轉換成Agent能夠接受的輸入格式，最後再統整成一個Json檔。這樣一來我們就完成了多模態的輸入了。

解決完輸入以後，就可以來看到我們要怎麼將圖生圖的功能加進這個工作流中:

同樣我們需要再新增一個工作流，並且使用跟文生圖一樣的流程，只不過這次的輸入需要多新增一個Base64格式:

上面的觸發器是用來測試用的，而我們輸出的結果最終會用一個set節點來將圖片的base64編碼、圖片類型回傳給agent。

這樣子我們就又為Agent增加了一些實用的功能，不過這樣遠遠還不能稱上一個好用的助理，所以我還會再為它新增更多的功能。

今天我們完成了Gemini圖生圖功能，並且也成功讓助理可以接受多個格式的輸入，明天我們將會為這個助理繼續新增更多功能，例如新增網路搜尋、查看Email重要訊息等，明天將會逐個完成。

系列文

利用n8n+AI打造個人助理共 30 篇

5 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

IT邦幫忙