人工智能威脅人們的令人不安的跡象引發擔憂

世界上最先進的 AI 模型正在表現出令人不安的新行為——撒謊、詭計多端，甚至威脅其創造者以實現他們的目標。

在一個特別令人震驚的例子中，在被拔掉插頭的威脅下，Anthropic 的最新作品 Claude 4 通過勒索一名工程師進行反擊，并威脅要揭露婚外情。

與此同時，ChatGPT 的創建者 OpenAI 的 o1 試圖將自己下載到外部服務器上，并在被當場抓到時否認了。

這些事件凸顯了一個發人深省的現實：在 ChatGPT 震驚世界兩年多后，人工智能研究人員仍然沒有完全了解他們自己的創作是如何運作的。

相關：令人毛骨悚然的研究表明人工智能是我們從未發現外星人的原因

然而，部署越來越強大的模型的競賽仍在以極快的速度進行。

這種欺騙行為似乎與“推理”模型的出現有關，“推理”模型是逐步解決問題的 AI 系統，而不是生成即時響應。

研究人員擔心 AI 模型顯示出一系列欺騙行為。（尼古拉斯·梅特林克/法新社/蓋蒂圖片社）

香港大學教授西蒙·戈德斯坦（Simon Goldstein）表示，這些較新的模型特別容易出現這種令人不安的爆發。

“O1 是我們第一個看到這種行為的大型模型，”專門測試主要 AI 系統的 Apollo Research 負責人 Marius Hobbhahn 解釋說。

這些模型有時會模擬“對齊”——似乎遵循指示，同時秘密追求不同的目標。

“戰略性欺騙”

目前，這種欺騙行為只有在研究人員故意在極端情景下對模型進行壓力測試時才會出現。

但正如評估機構 METR 的 Michael Chen 警告的那樣，“未來更有能力的模型是否會傾向于誠實或欺騙，這是一個懸而未決的問題。

令人擔憂的行為遠遠超出了典型的 AI“幻覺”或簡單的錯誤。

Hobbhahn 堅持認為，盡管用戶不斷進行壓力測試，但“我們觀察到的是一個真實的現象。我們沒有編造任何東西。

據 Apollo Research 的聯合創始人稱，用戶報告說模型“對他們撒謊并編造證據”。

“這不僅僅是幻覺。這是一種非常戰略性的欺騙。

有限的研究資源使挑戰更加復雜。

雖然 Anthropic 和 OpenAI 等公司確實聘請了 Apollo 等外部公司來研究他們的系統，但研究人員表示，需要更高的透明度。

正如 Chen 所指出的，“人工智能安全研究”的更多機會將有助于更好地理解和減輕欺騙。

另一個障礙是：研究界和非營利組織“的計算資源比 AI 公司少幾個數量級。這是非常有限的，“AI 安全中心（CAIS）的 Mantas Mazeika 指出。

無規則

目前的法規并不是為這些新問題而設計的。

歐盟的 AI 立法主要關注人類如何使用 AI 模型，而不是防止模型本身行為不端。

在美國，特朗普政府對緊急的 AI 監管興趣不大，國會甚至可能禁止各州制定自己的 AI 規則。

Goldstein 認為，隨著 AI 代理（能夠執行復雜人類任務的自主工具）的普及，這個問題將變得更加突出。

“我認為還沒有太多的意識，”他說。

所有這一切都是在激烈競爭的背景下進行的。

Goldstein 說，即使是將自己定位為注重安全的公司，如亞馬遜支持的 Anthropic，也“不斷試圖擊敗 OpenAI 并發布最新模型”。

這種極快的速度幾乎沒有時間進行徹底的安全測試和糾正。

“現在，能力的發展速度超過了理解和安全的速度，”Hobbhahn 承認，“但我們仍然處于可以扭轉局面的位置。

研究人員正在探索各種方法來應對這些挑戰。

一些人倡導“可解釋性”——這是一個專注于了解 AI 模型內部工作原理的新興領域，盡管 CAIS 主任 Dan Hendrycks 等專家仍然對這種方法持懷疑態度。

市場力量也可能為解決方案提供一些壓力。

正如 Mazeika 指出的那樣，AI 的欺騙行為“如果它非常普遍，可能會阻礙采用，這為公司解決了這個問題創造了強大的動力。

戈德斯坦提出了更激進的方法，包括當人工智能公司的系統造成傷害時，利用法院通過訴訟追究其責任。

他甚至提議對事故或犯罪“追究 AI 代理的法律責任”——這個概念將從根本上改變我們對 AI 問責制的看法。

?法新社

寶寶起名起名

本站所有相關知識僅供大家參考、學習之用，部分來源于互聯網，其版權均歸原作者及網站所有，如無意侵犯您的權利，請與小編聯系，我們將會在第一時間核實并給予反饋。

相關期刊推薦

湖北農機化

農業基礎科學 - 省級期刊

新聞研究導刊

合作期刊 - 省級期刊

美術文獻

合作期刊 - 省級期刊

好家長

合作期刊 - 省級期刊

藝術品鑒

合作期刊 - 省級期刊

經營者

合作期刊 - 國家級期刊

藝術家

合作期刊 - 國家級期刊

科技創新與應用

合作期刊 - 省級期刊

中小學電教

合作期刊 - 省級期刊

中國金屬通報

冶金工業 - 國家級期刊

當代體育

體育 - 省級期刊