iT邦幫忙

2

【NotebookLM】AI時代的筆記新工具:Google NotebookLM&用Audio Overview 生成podcast 教學與實測分享

  • 分享至 

  • xImage
  •  

大家好,我是一宵三筵
今天是想跟大家介紹一下Google的NotebookLM 的服務,
以及這個月的新功能「Audio Overview」

這個Audio Overview 的功能一出之後,除了震驚許多使用者之外
網路新聞的介紹大量的互相抄襲,我看了之後覺得沒有太多新意
所以決定來自己寫一篇介紹文兼實測文

網路記者們沒有我的同意請不要直接抄襲謝謝

OK我們就開始我的介紹

NotebookLM 介紹

NotebookLM 全名是(Notebook Language Model)
是一個結合 AI 的筆記平台
這個由 Google 推出的服務,可以讓使用者將多筆來源的知識、文獻記錄在這個「筆記本」之後,由AI來分析所記錄的資料之後,提供了以下的服務:

  1. 自動地進行內容摘要,找出文章的重點,快速的總結整個資料的內容
  2. 提供問答功能,就像是有一個GPT會根據你所餵給他的資料來進行回答
  3. 可以將問答後的內容,單獨一篇的儲存起來,變成像一則一則的記事

資料的來源可以是上傳PDF或文字檔案,或從google文件與簡報中指定
也可以是一個網址,或是手動複製貼上的文字內容

一個帳號可以建立多個「筆記本」,所以每個筆記本的內容可以很專注在某個主題上
這樣NotebookLM 可以幫你在相同的主題下的不同資料,產生連結與重點整理

而且最新的功能「Audio Overview」能夠根據內容,
生成一個5-10分鐘左右不等的podcast音檔
由一男一女的兩位主持人,透過問答對話把資料中的重點給講述完成
講述方式很幽默,並不是照著文章直接念,中間的轉折語氣都非常的像真人

這也是我這次會覺得這個服務真的很值得介紹,感受到AI的進步神速的一個功能
詳細的實測效果我放在後面

應用上,如果你有以下的需求,那麼可以試著使用這個服務看看

  1. 需要閱讀大量的論文與資料,並從中理解內容與統整重點
  2. 快速掌握或學習某個主題或知識的內容
  3. 對於小說創作者,可以把世界觀與設定資料都放上來,隨時整合世界觀設定,避免吃書(X

身為超喜歡叫AI當私人家教的我
(可參閱去年的鐵人賽文章:用ChatGPT詠唱來完成工作與點亮前後端技能樹 )
個人覺得最棒的真的就是用來學習、讀某項主題的資料時很方便
畢竟他能夠自動生成摘要,進行跨文獻的比較與分析,甚至自動提出研究問題或假設
AI怕我們不會問問題,還主動提供問題讓我們問,來確保真的有掌握內容

使用教學

進入網站 &建立筆記本

首先,來到這個 NotebookLM 的網站,進行基本的登入與同意相關條例
https://notebooklm.google.com/
https://ithelp.ithome.com.tw/upload/images/20240919/20135750zr3EKY9wte.png
這邊就會簡介這個使用方式與用途,還有提供按鈕來建立筆記本
於是點選「建立」,就會幫你開一個空的未命名筆記本

建立資料來源

https://ithelp.ithome.com.tw/upload/images/20240919/201357507UpL1iwP18.png
進入筆記本後,畫面就會來到這邊,並跳出「新增來源」的視窗
這邊可以看到要加入筆記本的資料來源方式目前提供以下四種方式:

  1. 上傳文件檔案,格式支援PDF、.TXT文字檔,或是markdown文字檔
  2. 從google 雲端空間匯入文件或簡報類型的內容
  3. 貼上一個資料來源的網址
  4. 直接貼上文字

網址的部分,點進去他會特別說明:

  1. 只能抓到網站上的可見文字,也就是不會深入裡面的連結再去做資料的抓取
  2. 不支援付費文章,google也只是去爬裡面的內容而已,如果需要付費的他爬也抓不到

https://ithelp.ithome.com.tw/upload/images/20240919/20135750jC96Uvp94H.png

如果把視窗關掉了也不用擔心,左上角的來源這邊的加號點下去,就可以開啟一樣的視窗
https://ithelp.ithome.com.tw/upload/images/20240919/201357502yYn5s4wzz.png

Audio Overview 的自動摘要功能

作為範例,我丟的資料是一個有關「跑酷」這個運動的介紹網站
https://www.parkour.tw/p/blog-page.html
https://ithelp.ithome.com.tw/upload/images/20240919/201357503ZZya0aZyE.png

當第一個資料來源被加入之後,畫面就會像這樣
跳出來的視窗就是Audio Overview的功能
如果關閉視窗後,可以點選右下角圖中紅色框選的「筆記本指南」再度叫出來

這邊就可以看到有整個針對目前現有資料的功能導覽
自動生成了綜合所有資料的摘要

我目前加了一筆,所以就是那個跑酷網站的內容摘要,
告訴你這個網站大概會告訴你那些資訊
內容很粗略,只是講述內容主題的方向而已

「幫我生成」、「建議的問題」這兩個區塊
有一點像是一個功能快捷,固定舉出這五個項目
點擊之後的效果,就是利用下面的「對話」功能相似
這個部分我們等等再來介紹
https://ithelp.ithome.com.tw/upload/images/20240919/20135750dkIYEccDhs.png

最吸引人的是接下來這個功能

音訊總覽 🌟🌟🌟

這個功能就是這次NotebookLM 9/11 更新Audio Overview功能之後
會這麼受矚目的主要原因
https://ithelp.ithome.com.tw/upload/images/20240919/201357504wZm5W0Frp.png

有至少一個資料來源後,點擊「生成」,稍微等他一段時間(可以離開網頁沒問題)
可以重新點開右下角的「筆記本指南」來確認,等生成好就會得到一段音檔

內容一男一女的兩位主持人,透過問答對話把資料中的重點給講述完成
對話的方式與內容真的很像在聽一個podcast
長度就是5-10分鐘左右不等,我也有生成過12分鐘的音檔

目前語言只會是英文的,無論你丟的資料來源是英文還是中文
總之這個主持的對話內容會是英文的
https://ithelp.ithome.com.tw/upload/images/20240919/20135750I6DagTyhpa.png

這邊可以直接看我生成的
有關「跑酷」的音檔結果:
https://drive.google.com/file/d/1baQa9Cy7RrK09XxVeyzjwKviyvshTFtQ/view?usp=sharing
裡面的語氣和情緒很豐富,用字與內容也不完全照著我給他的資訊

同場加映,有關「魔物獵人」的音檔結果:
https://drive.google.com/file/d/17cHiv23Xy8zwSR-ZahaBI1JtXMnbDU-J/view?usp=sharing
我只放了魔物獵人的維基百科進去
在解釋一個遊戲的時候,這個「主持人」解釋的情緒很滿
就像是他玩過這個遊戲有多好玩一樣,極力地想要把這個內容介紹給你
而且幽默的是,他知道我只是給他枯燥的維基百科條目(繁體中文)
討論竟然還延伸到討論「中文圈」、「台灣地區」的文化價值觀與遊戲的關聯

我還有丟了有關單元測試的一個書籍的PDF檔進去,那個PDF有280多頁
一個PDF可以當作單一資料來源超級賺
生成的 podcast 就像是兩位主持人完整的讀過這個書,然後分享書中的精華和討論內容
https://drive.google.com/file/d/1x2mCGCzwAiLiXdaCXV_oVZYR3TwTT4ps/view?usp=sharing
裡面還有用一些譬喻,比如解釋「mock」 是什麼時,
使用了「打電話給達美樂」來比喻
達美樂!!PDF中的文字100%沒有提到達美樂,酷斃了

點選音檔旁邊的三個點,打開彈窗之後
就會看到下載、改變播放速度、與刪除的功能(刪掉之後可以重係生成音檔)
點選下載下來的檔案會是 .wav
https://ithelp.ithome.com.tw/upload/images/20240919/201357501DuI163Ccj.png

就在我寫這篇介紹的這幾天,NotebookLM的介面又另外把音訊總覽旁邊的資訊給翻譯成中文了
https://ithelp.ithome.com.tw/upload/images/20240919/20135750YVB4ckrRpp.png
大概就是介紹一下這個功能的限制與目前的一些警告

實際運用效果&使用技巧

接下來介紹有關對話、摘要等使用的效果,以及分享我怎麼找資料來源這件事情

Google 學術搜尋

繼續以「跑酷」這個主題為例子,在台灣中的跑酷相關資料相當有限
所以如果想要閱讀更多的資訊,我會推薦 「Google 學術搜尋」功能
https://ithelp.ithome.com.tw/upload/images/20240919/20135750eqS7xyHRyx.png

這邊就可以不限語言的,搜尋到許多資料與論文等
https://ithelp.ithome.com.tw/upload/images/20240919/20135750Gd9JbRIReB.png

旁邊也可以設定時間區間,看要找最新的內容,或是從最早開始的內容都有
可以下載PDF或是直接複製裡面的網址,然後丟給NotebookLM作為資料來源

單一文獻摘要

蒐集完來源之後,可以得到像這樣的多筆資料列表
https://ithelp.ithome.com.tw/upload/images/20240919/20135750a80o7XyQye.png

這邊要先介紹單一文件的摘要功能

直接點選其中一篇,像我點開了「Sports | Free Full-Text | The Reliability of Parkour Skills Assessment」這一篇之後,側邊欄會變寬並展開
https://ithelp.ithome.com.tw/upload/images/20240919/20135750nssgcwzKqW.png

可以看到他直接摘要了裡面的內容,讓我們知道這篇論文在討論什麼,而且是翻譯過後的摘要
恩,像這篇文章中,他說他找了二十個男生,一半學過跑酷,另一半是初學者來做實驗

旁邊的「重要主題」除了抓出整篇內容的關鍵字
(歐不過他的翻譯有點失敗 parkour 變成 公園our,謝謝,這個單字我終於背起來了)
這邊的關鍵字不只是抓出來,可以點下去之後,變成一個針對單篇文獻的問答

比如說我好奇跑酷要如何進行評估,我就點選「評估工具」
系統就使用「對話」功能來問出「Discuss 評估工具」這樣的問題
https://ithelp.ithome.com.tw/upload/images/20240919/20135750ZUyA3vSvBz.png

快速的掌握目前所擁有的知識中,是怎麼進行評估的

對話問答功能

要更靈活的針對單篇來進行問答,可以關閉原本的摘要畫面,回到主畫面之後
在來源這裡,只勾選要問問題的內容
https://ithelp.ithome.com.tw/upload/images/20240919/20135750Ay6gbYoPU2.png

右下方的對話輸入框,顯示了只使用一個來源來作為知識庫
接下來就可以自由地問問題
https://ithelp.ithome.com.tw/upload/images/20240919/20135750qx7Z2i9ETt.png

再繼續舉例,我想知道他這個實驗的具體評分項目
https://ithelp.ithome.com.tw/upload/images/20240919/201357508riUxBAkQt.png

登登,我不用真的讀完整個論文,也可以直接獲得這一篇論文中的實驗方式或是結論
具體想要知道什麼,就透過對話的方式逐步的將內容給詢問出來
直搗自己想要知道的內容

跨文獻資料來源的對話

或者,我希望綜觀整個蒐集到的資料,我希望得到一個跨文獻的總結或知識
那就一樣回到主頁面中,在側邊欄把所有文獻都給打勾
然後盡情地問想要知道的問題
https://ithelp.ithome.com.tw/upload/images/20240919/201357501F6IVcqg4C.png

在這個問答中,可以針對他提供的字句旁的數字按鈕,直接了解這個結論與知識是出自於哪個資料來源的,並且把相關的字句給反白起來
https://ithelp.ithome.com.tw/upload/images/20240919/20135750FKKdxfrTbh.png

儲存至記事

如果覺得這篇回答很棒,是一個很棒的筆記與內容,也可以點選回覆中的「儲存至記事」
https://ithelp.ithome.com.tw/upload/images/20240919/20135750QFMUVNQ7To.png
內容就會被記錄起來,變成一則一則的便條
否則對話內容是會隨著跨裝置或是時間消失的(具體機制目前不太確定)

但變成記事之後,資料來源的連結就會消失,剩下 [1] 這樣的文字,有點可惜
而且記事內容的彈窗不能再放大了,感覺整個網頁的UX設計上還有一些進步的空間

輔助問答

在「筆記本指南」中或是在對話框附近都有不少按鈕,內容是一些問題的語句
都是怕使用者不懂怎麼問問題 XDD
或是當沒頭緒要從哪裡開始的時候,就有提供許多問題範例
https://ithelp.ithome.com.tw/upload/images/20240919/20135750JPnWWdjpXI.png

我覺得這個真的很不錯,不斷的鼓勵使用者來問問題得到想要知道的總結內容
https://ithelp.ithome.com.tw/upload/images/20240919/20135750OrltHCSN15.png

其他組合技

我自己的英文沒有很好,所以像前面生成的podcast音檔
沒有字幕、沒有翻譯我其實很難完全聽懂裡面的內容

於是乎我們要來個AI全餐:「先把檔案下載,然後將音檔轉文字,然後再把這個文字轉中文」

聽起來完美對吧,不過目前許多AI服務都要收費,或是有一些免費的限制,尤其是音檔轉文字這一塊

目前有三個方案:
🌟 選擇一: OpenAI 的 Whisper 語音辨識測試生產字幕檔
我後來改用這個方式,使用大神寫好的colab服務
https://colab.research.google.com/drive/1oKn8MgZETXxT0t6iLM4JcN_LmuhckSTl?usp=sharing

不管影片有多長都可以自己進行語音轉成文字
不用使用外面來路不明的服務或是要付費的服務
先把整個 .ipynb 複製一份出來
https://ithelp.ithome.com.tw/upload/images/20240920/20135750zVqTYui8qt.png
然後照著上面的指示,按按執行鈕、設定好參數跑起來
就可以快樂的得到準確度高又舒服的字幕檔,也可以選擇純文字等

選擇二:google的 Speech-to-Text 服務
需要 Google Cloud 的註冊,將有每個月60分鐘的扣打可以使用

選擇三:cSubtitle (https://www.csubtitle.com/)
如果要用免費的、人家搭建好的服務,可以考慮使用 cSubtitle 這個網站
不用帳號註冊,他可以免費的轉3分鐘的音檔,目前測試上一個IP可以轉5個檔案沒問題

不確定是實際的總上限量5個怎麼算的,第六個達到限制後,有試過等一段時間後又可以轉換了
但確切的限制規則還需要再測試

音檔超過3分鐘?那就用剪輯軟體去切

切分的軟體就可以有很多了,只要可以處理wav格式的都可以
我自己就簡單的用QuickTime Player來裁切音檔
然後拿去cSubtitle 轉文字
轉換完畢之後就可以看到有這些選項可以用
https://ithelp.ithome.com.tw/upload/images/20240919/20135750HiZwLcJ7Yi.png

我通常都會保留下來,並選擇那個黃色的「逐字稿第二選擇」

以下是以那個有關單元測試的例子來示範
https://ithelp.ithome.com.tw/upload/images/20240919/20135750ov9ePtMIeC.png

他有兩個模型,通常來說我比較喜歡他的備選模型,字句分得比較開,字句也如同說明文中一樣
目前實測下來是備選模型更通順、更精準,也更好閱讀

以上的語音轉文字完成之後
同樣一段一段的餵給免費的ChatGPT 4-o 模型
實測過不能給google翻譯、Translate Subtitles這種
會變成破碎的中文

SeamlessM4T 的話要直接試試看處理影片轉文字
但沒辦法選擇繁體中文的樣子,目前還在嘗試

繞一圈最後還是ChatGPT或餵給gemini處理是最好又最方便的
因為他們可以很好的處理因為是字幕檔案而變得破碎的上下文

我前情提要大概的跟ChatGPT這樣描述:

請問你可以用繁體中文幫我翻譯這一段嗎
這個內容實際上是兩個主持人的對話
只是字句都卡在一起了
可以幫我分辨對話並且翻譯嗎

然後貼上3分鐘內的文字內容
(我還不確定ChatGPT一次可以處理多少,我就寧可分多次一點,音檔分幾段,我就直接分幾段)
https://ithelp.ithome.com.tw/upload/images/20240919/20135750Mj0BdHx78g.png

其實因為ChatGPT也沒有聽到實際的音檔,所以根本不知道哪些話是誰講的
在判斷到底是誰講的話並不是哪麼準確,但是搭配音檔的話就讓整個內容變得非常可讀
這邊放一個針對單元測試的文字檔結果

音檔下載:
https://drive.google.com/file/d/1x2mCGCzwAiLiXdaCXV_oVZYR3TwTT4ps/view?usp=sharing

音檔轉逐字稿 + ChatGPT翻譯:
https://docs.google.com/document/d/1oE0m3i3TESksTkceNpxz53OiSC2ttxAd6LjxaAeZFp0/edit

資料安全、風險、準確性

所有的AI服務,其實大家要有一個意識,就是傳上去的資料有外洩或是被作為訓練用途的風險
雖然 NotebookLM 在讓你輸入知識資料的時候,有這麼一段:

請放心,你的個人資料絕不會用於訓練 NotebookLM。為排解問題、處理濫用行為,或根據意見回饋提升服務品質,人工審查員可能會查看你的查詢、上傳內容和模型回覆。請勿提交任何你不希望人工審查員查看的內容。

喔意思是,雖然他聲稱不會拿來訓練
可是他們的內部員工是可以看你傳了哪些資料、怎麼跟模型做問答的

也就是上傳之後,你的資料不是你的資料
如果有需要保密的資料,或需要考慮資料外洩風險的內容,像是公司機密等等
那最好是不要放上去

另外AI發展得很快速,但難以避免AI回答的內容會有錯誤
而且NotebookLM 的回答內容,大致上是基於你提供的文獻與資料內容來回答
如果資料有誤,那麼他總結出來的內容就會跟著錯誤

小結&閒聊

不小心就變成一篇落落長的教學與實際使用的分享了
也在案例分享中分享我自己平常喜歡的「跑酷」這項運動
而且是女孩子也可以跑酷,藉機推廣(欸

然後目前NotebookLM這個服務都還在測試階段
因此目前使用上是不用任何收費的,也暫時沒有測出有限制流量、數量的問題

筆記本可以追加的上限不清楚有多少個
只知道一個筆記本內最多放 50 筆來源
但是單一個來源,甚至是可以放下一個280多頁的PDF書籍內容是沒問題的

可以說是想要免費享受這個功能要趁早(?)

希望這篇介紹可以讓大家多認識到目前LM的服務與技術發展
追上AI應用的腳步,不然最近的AI發展真的快到我自己都有點跟不上了

有在想要做Cursor的介紹,不過可能還要一段時間
Cursor 服務我是卡已經刷下去了啦,相當噁心,相當好用
只是看要怎麼介紹會比較好而已,目前應該也有不少文章有詳細的介紹的

近期都在忙新工作的事情,今年的鐵人賽就來不及準備了
但不妨礙我單篇單篇的分享內容 XD

好的我是一宵三筵,感謝大家的閱讀~!


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言