專案緣起: 用說的UI
這個專案的靈感來自一個簡單的 AWS Lambda Function。當時主要是想在當免費仔的前提下,練習Spring Boot 和 Serverless技術,順便串通當年還很新奇的LINE Bot,最終用一個簡單的Rich menu做出一個簡單的重量訓練課表紀錄器。畢竟,這些服務在正常使用的情況下都不用錢。
當我好不容易把Spring Boot程式擺到Lambda上後,下一步就是要有使用者介面紀錄課表。於是我開始參考現在一些App是怎麼做的。以做了 ”低背槓式深蹲” 為例,操作大致如下:
使用這些市面上的 App 後,發現幾個顯而易見的缺點:
有重訓經驗的人都知道,一張課表會包含很多動作。而上述操作就耗費了在手機上超過10次點擊 + 尋找目標所需的眼力。紀錄了什麼呢? 只有“一組” 動作的訓練量,要完成一張課表的紀錄操作,可能比真正的訓練還累,尤其是你的眼睛和大拇指。
隨著 OpenAI 的興起,我自己體驗過 ChatGPT 的強大意圖分類(Intent classification)和總結能力(Summarize),腦海中就有個想法:如果我們能「用說的」來完成這些繁瑣的操作,會不會更輕鬆?
其實現在的手機軟硬體技術已經讓語音辨識變得十分準確,加上 LINE 的整合,「用說的」來表達文字變得更加輕而易舉。而我覺得OpenAI對自然語言的處理能力,則像是完成了這種「用說的 UI」 最後一哩路。
OpenAI 的官方文件提到,使用 text generation models ,可以讓軟體具備自然語言界面」 (“Give software a natural language interface”),這對於像是安排課表這種重複性高,但又需要微調細節的操作可能蠻適合的。
因此就開始著調整系統架構。下一篇將描述我在調整過程中遇到的挑戰與思考的方向。
https://platform.openai.com/docs/guides/text-generation/text-generation-models