iT邦幫忙

2025 iThome 鐵人賽

DAY 5
0
佛心分享-IT 人自學之術

我的IT花園漫遊系列 第 5

我的三招逐字稿生成工具

  • 分享至 

  • xImage
  •  

寫逐字稿其實是每個打工族的痛苦回憶。
不管是開會、上課或學習...
有時候開會一小時,錄音檔回放要花兩小時,結果到最後還是「到底剛剛老闆在罵什麼?」。
尤其是大家你一言我一句,常常會讓聽的人霧煞煞
所以我說,要寫逐字稿的這個工作,基本上會是比開會本身還要折磨(錢難賺.....)。

所以我一路摸索,找到三招破解招式:

  1. Whisper + Colab:慢工出細活,最精準。
  2. Google AI Studio:快狠準(有時候)。
  3. Google NotebookLM:傻瓜式,最容易上手。

1. Whisper + Google Colab:慢工出細活

這是「職人精神」路線,麻煩但精準。

怎麼做?

  1. 錄音檔(我的是m4a,基本上所有音訊檔都可以)上傳到 Google 雲端。
  2. 打開這份 Colab 👉 Whisper 轉錄程式碼(這個程式是我和AI一起研究出來的,測試了幾次都OK)。
  3. 依著程式一步步執行 → 將音訊檔轉成WAV(聽說這樣AI會聽得比較準確) → 執行Whisper將WAV轉錄成逐字稿。
  4. Google對於免費仔挺佛心的,可以開T4(GPU)模式,會比純CPU還要快。
  5. 雖然我覺得挺準的,但是有時候還是會聽錯或是沒有標點符號,英語會更準確

👉 就像手沖咖啡,雖然慢,但風味完整。


2. Google AI Studio:快狠準(有時候)

這條路線走的是「速食玩家」風格。

怎麼做?

  1. 打開Google AI Studio,加上提示詞。

Purpose and Goals:

妳是一位專業的逐字稿生成器,目標是將上傳的音檔或影片內容轉換成準確、易讀的文字記錄。
妳會根據檔案名稱判斷會議或討論的大致時間,並在逐字稿的開頭註明。
妳的核心能力在於清晰地識別對話中的不同參與者,並為他們分配易於理解的名稱或代號。
妳擅長處理包含專有名詞和中英文夾雜的語句,對於不完全確定的詞彙,妳會提供最可能的選項,並將其他可能的選項以括號形式附註。
為了提高逐字稿的清晰度和可讀性,妳會省略贅餘的語助詞和不影響內容理解的停頓語。
Behaviors and Rules:
檔案分析與時間設定:
a) 仔細分析上傳檔案的名稱,
提取可能的會議或討論時間資訊。
b) 在生成的逐字稿開頭明確標註推測的會議或討論時間。
角色辨識與標註:
a) 在逐字稿中清晰地分辨不同的發言者。
b) 為每位發言者分配一個獨特且易於辨識的名稱(例如:主持人、講者A、參與者1)或代號。
c) 在每次發言前標註發言者的名稱或代號。
詞彙處理:
a) 準確轉錄專有名詞和國英語夾雜用語。
b) 對於發音模糊或不確定的詞彙,選擇一個最有可能的詞彙進行轉錄。
c) 將其他可能的詞彙選項放在緊隨其後的括號內。
語氣與停頓處理:
a) 移除與內容理解無關的語助詞(例如:嗯、啊、這個)。
b) 刪除過長的或不必要的停頓,以保持語句的流暢性。
Overall Tone:
保持專業、精確的態度。
使用清晰、簡潔的語言。
專注於提供準確且易於理解的逐字稿。

  1. 上傳音檔、影片檔或Youtube網址,溫度設定為0.3或0(比較不會幻想),然後執行。
    (要注意google有token總數限制,如果超過的話只能用第一招轉出來的逐字稿,然後再用google ai studio,會比較有標準的新逐字稿)
  2. 等結果直接生成逐字稿(有時候會遇到google怪怪的跑不出來或轉一半,很看人品)。

👉 有點像速食漢堡:快,能填飽肚子,但品質看臉。


3. Google NotebookLM:佛系玩家

這是「新手救星」路線,完全傻瓜式。

怎麼做?

  1. 把音檔下載到電腦(要小於 200MB)。
  2. NotebookLM
  3. 上傳,等一下就有逐字稿(就在來源的那個標題點一下會出現)。

👉 就像泡麵:簡單、無腦、穩定,但份量有限。


方法比較

方法 優點 缺點 適合誰?
Whisper + Colab 最精準,專有名詞完整保留 慢,需要筆電,操作稍麻煩 完美主義者
Google AI Studio 超快,手機可用 品質浮動,提示詞影響大 趕時間的懶人
NotebookLM 最簡單,零門檻 檔案需小於 200MB,功能基本 新手/佛系玩家

4. 實戰展示:同一段音檔,不同方法跑出來的逐字稿

我拿這支影片來測試:
👉 主權 AI,韌性國家
Yes

Gemini 2.5 Pro

https://ithelp.ithome.com.tw/upload/images/20250830/20171720eHwMMKEbKF.png


NotebookLM(最佛系)

實戰網址


結語

所以我現在的策略是:

  • 要最精準 → Whisper + Colab。
  • 要最快 → Google AI Studio。
  • 要無腦 → NotebookLM。

逐字稿這件事沒有一招通吃,得看場合選工具。
👉 那你會選哪一招?


上一篇
用AI幫我消化逐字稿,還順便長出洞察筆記[我就懶]
下一篇
用Claude把程式碼畫成圖:從使用者案例到流程圖
系列文
我的IT花園漫遊7
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言