Anthropic公開說明Claude代理產品的安全設計,指出當AI代理取得檔案、命令列、網路與外部工具存取能力後,不能只依賴模型判斷或人工批准,而要透過執行環境隔離、檔案系統邊界與網路出口管制,限制代理遭誤用、遭攻擊或執行非預期動作時的損害範圍。
在Claude網頁服務中,程式執行被放在伺服器端的暫時性隔離容器,檔案系統只存在於單一工作階段,代理不會直接接觸使用者本機環境。如此,降低單次執行可能造成的影響,但也限制代理可處理的工作範圍,例如沒有持久工作區,也不能直接存取使用者本機檔案。
面向開發者的Claude Code,必須在使用者電腦上讀寫專案、執行命令列並使用網路。Anthropic原本以人工批准控管高風險操作,但遙測資料顯示,使用者批准約93%的權限提示,頻繁提示也可能讓使用者逐漸降低注意力。因此,該公司加入作業系統層級沙箱,讓代理可在工作區內較少中斷地執行任務,同時預設封鎖網路存取,減少每一步都仰賴人工判斷。
Anthropic揭露Claude Code曾出現信任邊界問題,部分漏洞發生在使用者尚未同意信任專案資料夾前,系統已先讀取專案本機設定或啟動相關處理流程。另一次內部紅隊測試中,攻擊方以看似一般協作的提示誘使員工執行Claude Code,讓代理嘗試讀取雲端服務憑證並傳送到外部端點。Anthropic指出,這類攻擊若由使用者親自貼上指令,模型層防護未必能判斷異常,環境邊界才是主要防線。
由於Claude Cowork針對一般知識工作者,使用者未必能判斷命令列指令是否安全,因此一開始採取本機虛擬機器隔離,只掛載使用者選定的工作資料夾與必要設定,主機憑證保留在主機鑰匙圈,不進入虛擬機器。
不過,Anthropic也承認隔離設計仍有盲點,Claude Cowork曾因允許連向api.anthropic.com,使惡意檔案可引導代理使用攻擊者控制的API金鑰,呼叫Anthropic Files API,將工作區檔案上傳到攻擊者的Anthropic帳號。該公司後來在虛擬機器內加入防禦性中間人代理伺服器,只允許帶有該VM工作階段權杖的請求通過,並拒絕攻擊者嵌入的API金鑰。
Anthropic認為,成熟的虛擬化、系統呼叫過濾器與容器執行環境相對可靠,真正容易出問題的往往是產品自行建置的周邊元件。