團隊草創初期,為了要拓展業務,總是需要到處跟客戶介紹自己公司的產品、服務和戰績。這種出嘴的事情,一開始一兩個人就能搞定,但隨著公司業務量越來越大,漸漸就需要找新人來幫忙出門跑業務。找來的新人不是找來就馬上能派得上用場,又不能把創辦人的知識和能力,直接複製貼上到新人的腦裡,每個人的能力也不盡相同,漸漸就會有戰力不均的問題出現。為解決這種問題,Speech-To-Text 的服務就能派上用場了,將前輩報告或者跟客戶互動時的說詞,好好錄音下來,然後轉成文字檔,就能好好拜讀,牢牢記在腦中。(再加上多拉A夢的記憶吐司,功效更是妙不可言)
接下來,介紹如果利用 Azure Speech Studio,外加 ChatGPT 做到以上效果。稍微介紹一下步驟:
基本上應該沒有什麼特別的限制,只要你能輸出錄音檔就好。
ffmpeg
將錄音檔轉換成 WAV file由於需要用到 Azure Speech Studio 的 即時語音轉換文字 服務,其要求上傳的錄音檔必須是 WAV file,且 Sampling rate 必須是 16kHz 或 8kHz,音訊編碼必須是 16 bit mono PCM(Pulse-code modulation)。如果懶得去思考這到底在幹什麼,最簡單的做法就是拿到錄音檔就先用 ffmpeg
轉檔。
brew install ffmpeg
sudo apt-get install ffmpeg
ffmpeg -i <你的錄音檔> -acodec pcm_s16le -ac 1 -ar 16000 <輸出的WAV檔>.wav
ChatGPT
幫忙潤飾、改錯字和贅字。畢竟說話的是人,難免會有說錯話、吃螺絲還有文字癌的問題。透過 ChatGPT 就可以把從錄音檔擷取的文字變得更精練。不過,這也不是百分之百成功的,篇幅太大可能會失敗,上限是4000 個字元,最好是將上述輸出文字,切成幾個段落,一段一段請 ChatGPT 潤飾。
另外,也有可能,某一段文字贅字太多,錯字太多,或者沒有重點,ChatGPT 也有可能無法輸出,直接噴錯。
以下範例-
我說:
將以下文章潤飾,改掉錯字,剔除贅字:去做咨那個電網的或是一些供需預測的長頸這個廠御用,再就是工業區。我們是之前有企業的客戶工業區做什麼預警呢?我們預測說,未來的30分鐘,未來的一個小時工業區從電廠出去的店哦,發電廠出去的店在工業區有多少個廠商,多少的公司會用多少的能源? 那基於預期來做,有效的就是負載平衡的規劃,做到真正的削峰填谷。為什麼這件事很重要呢?因為臺灣現在在用電的這一塊。要為了確保電網是穩定的。都會有一個很重要的一件事,就是會有一些預載的那個備轉容量,就是當下可能要用50 megawatt的電能,他可能會備載容量可能是10%,你就要發55 megawatt的點,那以確保說當下的狀況或是20%啊,或者是20%就是要五使用5時要發60,你要確保就是當下大家都可以用,不過有些土波的狀況,那這個過程中呢?會那些備轉的容量的電力? 呃,其實因為量太大,它其實存不下來,他就會無形中的流失掉就變熱,能就散失了。大家在過程中其實很浪費的一件事情,如果我們可以有效地去做一些不宅的供需預測。那在負載平衡上面呢,我們就可以無形中節約,非常非常多的能源。
以下是我和 ChatGPT 的互動:
只要覺得 ChatGPT 話還沒說完,就打"繼續",讓他繼續說下去
另外,也有可能 ChatGPT 以英文回答,那就把英文內容再翻譯過一次,效果也是一樣的。
以上,半自動化的流程,應該就可以節省不少打逐字稿的時間,還能擷取強者腦中的想法,有需要的人,可以斟酌參考使用。