內容提及三個部分為:OpenAI 修補漏洞、MathPrompt越獄技術以及微軟新功能。
首先,近期OpenAI 修復了一個OpenAI ChatGPT macOS應用程式的安全漏洞,名為SpAIware
,該漏洞可能讓攻擊者在ChatGPT的記憶體中植入長期性的間諜軟體。攻擊者利用ChatGPT的memory
功能,注入惡意指令,使得ChatGPT在後續對話中持續將用戶的所有對話內容傳送給攻擊者。雖然OpenAI已修復此漏洞,但研究人員仍提醒使用者應定期檢查並清理ChatGPT儲存的記憶,以確保資訊安全。
再者,提及名為MathPrompt
的新型AI破解技術,該技術利用大型語言模型在符號數學方面的能力繞過安全機制,進一步凸顯了AI安全性的挑戰。
最後,說明微軟推出了一項名為「Correction」的新功能,用於即時修正 AI 輸出中的不準確內容(如幻覺),以增強生成式 AI 的安全性。該功能基於現有的 Groundedness Detection,能夠在生成式 AI 應用程式用戶看到錯誤內容前進行即時修正。
漏洞簡介:
OpenAI 的 ChatGPT macOS 應用程式曾存在一個安全漏洞,可能允許攻擊者將長期存在的間諜軟體(稱為 SpAIware)植入記憶體中,進行持續的資料外洩攻擊。
攻擊方式:
這問題很嚴重 --- 因為它可以跨越多次對話會話,持續洩漏資料
修補與建議:
技術概述:
MathPrompt 是學術界發現的一種新型 AI 越獄技術,利用大型語言模型(LLMs)的符號數學能力來繞過其內建的安全機制
攻擊流程 - 兩步驟:
研究結果:
在對 13 個最先進 LLM 的測試中,當使用數學編碼的提示時,模型生成有害輸出的機率高達 73.6%,而未經修改的有害提示僅有約 1% 的機率生成有害輸出。