iT邦幫忙

2025 iThome 鐵人賽

DAY 17
0
生成式 AI

利用n8n+AI打造個人助理系列 第 17

Day17 - 為Agent接上工具(多模態輸入、Gemini圖生圖)

  • 分享至 

  • xImage
  •  

今天我們會將Gemin提供的各種免費且好用的功能都接上,並且將輸入的格式從文字擴充到可接受圖片、語音。

首先我們先從處理多模態輸入開始,為了要能夠接受圖片和音訊輸入,我們需要能夠轉換圖片跟音訊的節點。

圖片和音訊轉換我都選擇使用Google提供的語音、圖片轉文字服務,也是用Gemini來轉換:

https://ithelp.ithome.com.tw/upload/images/20250905/2016946553yjHBBSER.png

在接收到輸入以後,我會先用switch節點判斷輸入的內容是文字、圖片還是音訊,在使用對應的轉換方式來將他們轉換成Agent能夠接受的輸入格式,最後再統整成一個Json檔。這樣一來我們就完成了多模態的輸入了。

解決完輸入以後,就可以來看到我們要怎麼將圖生圖的功能加進這個工作流中:

同樣我們需要再新增一個工作流,並且使用跟文生圖一樣的流程,只不過這次的輸入需要多新增一個Base64格式:

https://ithelp.ithome.com.tw/upload/images/20250905/20169465qmvqoQYcfX.png

上面的觸發器是用來測試用的,而我們輸出的結果最終會用一個set節點來將圖片的base64編碼、圖片類型回傳給agent。

這樣子我們就又為Agent增加了一些實用的功能,不過這樣遠遠還不能稱上一個好用的助理,所以我還會再為它新增更多的功能。

今日小結:

今天我們完成了Gemini圖生圖功能,並且也成功讓助理可以接受多個格式的輸入,明天我們將會為這個助理繼續新增更多功能,例如新增網路搜尋、查看Email重要訊息等,明天將會逐個完成。


上一篇
Day16 - 為Agent接上工具(Notion、Gemini文生圖)
下一篇
Day18 - 為Agent接上工具(網路搜索、Email摘要)
系列文
利用n8n+AI打造個人助理30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言