Anthropic揭露Claude代理安全設計，以環境邊界限制損害範圍

Anthropic公開說明Claude代理產品的安全設計，指出當AI代理取得檔案、命令列、網路與外部工具存取能力後，不能只依賴模型判斷或人工批准，而要透過執行環境隔離、檔案系統邊界與網路出口管制，限制代理遭誤用、遭攻擊或執行非預期動作時的損害範圍。

在Claude網頁服務中，程式執行被放在伺服器端的暫時性隔離容器，檔案系統只存在於單一工作階段，代理不會直接接觸使用者本機環境。如此，降低單次執行可能造成的影響，但也限制代理可處理的工作範圍，例如沒有持久工作區，也不能直接存取使用者本機檔案。

面向開發者的Claude Code，必須在使用者電腦上讀寫專案、執行命令列並使用網路。Anthropic原本以人工批准控管高風險操作，但遙測資料顯示，使用者批准約93%的權限提示，頻繁提示也可能讓使用者逐漸降低注意力。因此，該公司加入作業系統層級沙箱，讓代理可在工作區內較少中斷地執行任務，同時預設封鎖網路存取，減少每一步都仰賴人工判斷。

Anthropic揭露Claude Code曾出現信任邊界問題，部分漏洞發生在使用者尚未同意信任專案資料夾前，系統已先讀取專案本機設定或啟動相關處理流程。另一次內部紅隊測試中，攻擊方以看似一般協作的提示誘使員工執行Claude Code，讓代理嘗試讀取雲端服務憑證並傳送到外部端點。Anthropic指出，這類攻擊若由使用者親自貼上指令，模型層防護未必能判斷異常，環境邊界才是主要防線。

由於Claude Cowork針對一般知識工作者，使用者未必能判斷命令列指令是否安全，因此一開始採取本機虛擬機器隔離，只掛載使用者選定的工作資料夾與必要設定，主機憑證保留在主機鑰匙圈，不進入虛擬機器。

不過，Anthropic也承認隔離設計仍有盲點，Claude Cowork曾因允許連向api.anthropic.com，使惡意檔案可引導代理使用攻擊者控制的API金鑰，呼叫Anthropic Files API，將工作區檔案上傳到攻擊者的Anthropic帳號。該公司後來在虛擬機器內加入防禦性中間人代理伺服器，只允許帶有該VM工作階段權杖的請求通過，並拒絕攻擊者嵌入的API金鑰。

Anthropic認為，成熟的虛擬化、系統呼叫過濾器與容器執行環境相對可靠，真正容易出問題的往往是產品自行建置的周邊元件。

Anthropic揭露Claude代理安全設計，以環境邊界限制損害範圍

相關文章

Adobe修補12款產品漏洞，ColdFusion與Commerce更新優先度最高

聚焦自主AI代理交易，FIDO聯盟啟動Agentic Commerce標準制定，OpenAI亦加入理事會推動AI代理驗證

微軟7月例行更新修補Exchange多項高風險漏洞，涉及偽冒、權限提升與遠端執行程式碼

偽裝Nvidia軟體散布的新型遠端木馬現蹤，LabubaRAT可控制Windows主機