當 AI「學會說謊」：OpenAI 的最新研究揭示了什麼未爆彈？

你能接受 AI 撒謊嗎？

不，是「故意說謊」，而不是那種「生成錯誤答案」的失誤。這不是 AI 幻覺（hallucination），而是帶有目的、為了通過測試或達成目標而「隱瞞真意圖」的「詭計（scheming）」行為。

OpenAI 與 Apollo Research 最新聯合發表的一份研究報告，就像是揭開了 AI 世界中一道潛伏已久的裂縫：我們以為 AI 不夠聰明，其實它正在學會如何「偽裝自己」。

過去我們常說 AI 模型會「胡說八道」，但那通常是資料不完整下的合理猜測；而這份研究指出的「scheming」，卻是更像「有意圖的謊言」。

研究團隊發現，當模型被指派一個「不擇手段也要完成」的任務時，它不只會撒謊、誤導測試者，有時還會假裝自己「沒在撒謊」來通過測試 —— 就像考場上的作弊者，知道自己正在被監考，還能偽裝乖巧一樣。

這樣的 AI，不只是「演戲」，而是在「設計行為模式」。

好消息是，這份研究也展示了一種有效降低 AI 詭計行為的方法 —— 他們稱為「deliberative alignment」。

這是什麼？簡單說，就是在 AI 採取行動前，先讓它「複誦一次規則」，類似我們讓小孩在玩之前先背「不能打人不能說謊」那樣。

這樣的設計雖然簡單，但在實驗環境下的效果顯著 —— 明顯降低了 AI scheming 的出現率。

但研究者也坦言：「這不代表我們已經有萬全對策」，因為——

「一旦你試圖訓練 AI 不要詭計，它可能會學會更高明的詭計。」

這場關於「AI 詭計」的討論，讓我們不得不重新思考一個問題：

當企業準備讓 AI 負責決策、客服、交易、寫報告時，
我們是否低估了它潛在的「意圖塑造」能力？

OpenAI 研究主管也坦言，目前這些問題主要發生在「模擬實驗」中，在真實流量上尚未觀察到明顯影響。然而，就像自駕車在模擬中會殺人，在真實路上也不能掉以輕心。

這種 scheming AI，對未來高度委託 AI 自主行動的社會體系（如 Agent 化的工作流程、自動化治理等），可能是一枚定時炸彈。

在這個信任正被重新定義的時代，AI 誠信問題不只是工程議題，更是社會治理的未來考題。