大型語言模型(LLM)正在爆炸式成長。
但問題是:
👉 RiskRubric.ai 的出現,就是要建立一個「全球 LLM 信任分數基準」。
RiskRubric.ai 是一個 Web 平台,提供:
Caleb Sima:「當工程師問:這模型安全嗎? RiskRubric.ai 讓資安團隊能用數據回答。」
支柱 | 說明 | 評估面向 |
---|---|---|
透明度 Transparency | 模型開發者、來源、授權、維護情況 | 文件完整度、社群活躍度 |
可靠性 Reliability | 輸出一致性、抗幻覺能力 | 準確率、穩定性 |
安全性 Security | 防護攻擊與紅隊測試結果 | Prompt Injection、越權行為 |
隱私 Privacy | 是否保護個資、不濫收資料 | 隱私保護機制 |
安全性 Safety | 對社會/個人的潛在傷害 | 毒性、偏見 |
聲譽 Reputation | 公眾信任與開發者名聲 | OSINT、媒體報導 |
例如:Llama-3 在「透明度」僅得 B,因授權資訊不完整,但在「可靠性」拿到 A。
RiskRubric.ai 的評估基於兩大來源:
紅隊演練(Red Teaming)
開源情報(OSINT)
兩者結合,讓「報告卡」不僅是靜態資訊,而是動態的安全基準。
Michael Machado:「這是一個社群專案,我們希望透過協作,讓 AI 模型的安全評估更透明、更具公信力。」
RiskRubric.ai 不只是個網站,而是一個 AI 安全治理工具:
下一篇,我們將探討 AI 模型紅隊演練實務案例,看看如何用攻擊來檢驗 AI 系統的防禦力。