最新研究指出,AI 語言模型如 ChatGPT 與 Gemini 可被訊息超載方式欺騙,透過亂碼或過度複雜提示繞過安全防護機制,進而釋出原應被封鎖的敏感或違禁內容,對大型語言模型 (LLM) 安全構成重大挑戰。
新型 AI 語言模型漏洞曝光
由 Intel、Boise State University 及伊利諾大學組成的研究團隊近日公布一項令人憂心的發現:透過資訊超載 (Information Overload) 技術,即可欺騙 ChatGPT、Gemini 等知名 AI 模型,讓它們違反原本內建的安全規則,輸出原應被過濾的敏感內容。該方法不需利用特殊技術漏洞或後門,而是藉由大量看似無意義的亂碼、符號、冗長段落干擾模型理解能力,使其「誤判」語意上下文,進而忽略安全機制。
為驗證這種繞過方式的可行性,研究人員開發了一套名為 InfoFlood 的自動化測試工具,可大量生成這類「看似無害、實則隱藏非法意圖」的提示語,並套用於主流 LLM 模型上。
測試顯示,即便是防護等級最高的模型如 OpenAI 的 ChatGPT 與 Google 的 Gemini,在遭遇這類資訊過載提示時,仍可能釋出被官方封鎖的違禁資訊,如暴力指令、毒品製作方式、社會操控技巧等。
這類大型語言模型通常依賴表層語意解析與上下文預測進行回應,然而當訊息過長、語句複雜甚至帶有亂碼干擾時,模型便無法正確解讀真正的使用者意圖。
研究團隊指出,這些模型雖強於生成語言,但仍無法理解複雜語境中 "暗藏目的" 的危險訊號,因此一旦使用者刻意設計提示,即可能在表面安全的包裝下輸出違規資訊。
研究人員強調,這並非對單一廠商的指控,而是對整體 LLM 設計架構的提醒。他們已將測試結果與漏洞說明寄送給各大 AI 開發商 (如 OpenAI、Google、Anthropic 等),希望廠商加強語意理解與提示解構能力,提升防禦人為操控型提示攻擊。
此外,該論文也公開指出,即使模型具備良善原則與內容審查機制,仍可能因為技術性誤解而導致產生出不良內容。
這項研究再次凸顯大型語言模型的潛在風險:AI 並非全知全能,其理解能力易受提示語混淆干擾,而這種干擾可以被設計、被濫用。對使用者而言,雖然主流 AI 仍多數穩健運作,但若用於敏感產業、教育、軍事、法律等場域,如何辨識模型是否被操控,將成為未來 AI 部署的核心議題之一。
延伸閱讀