開源監控平臺廠商Grafana Labs發表AI Observability in Grafana Cloud,目前進入公開預覽階段。該功能將AI Agent的對話紀錄、工具呼叫、token用量與輸出品質評估,整合進現有的Grafana Cloud可觀測性環境,讓開發團隊能夠即時監控代理行為、持續評估輸出是否符合預期,並在潛在風險出現前提早收到警示,無需另外導入獨立工具。
Grafana Labs指出,傳統可觀測性工具的不足,也就是當AI代理在生產環境中運行時,開發團隊往往難以僅從既有的指標、日誌紀錄與追蹤判斷輸出品質與行為是否出現偏差,問題常要到回應品質下降或使用者反映後才浮現。
AI Observability in Grafana Cloud的作法,是將代理對話與工作階段納入主要遙測訊號,相容OpenTelemetry標準。開發者完成設定後,平臺會擷取對話內容、模型與供應商後設資料、工具使用情況、延遲、詞元用量與推論成本。這些資料都可在同一介面中依模型、供應商、時間區間、標籤或環境條件篩選與查詢。
輸出品質的評估支援三種方式,包括LLM-as-a-judge、啟發式規則與正規表示式,可用來偵測低品質回應、政策違規或異常行為模式,並透過Grafana Alerting原生發出警示。平臺也具備潛在風險偵測能力,例如辨識回應中是否出現憑證洩漏,或是否存在異常使用模式。
AI Observability也提供版本管理功能,當開發者修改代理的系統提示詞或工具集時,平臺會自動建立新的代理版本,讓團隊能夠分別追蹤不同版本的表現差異,找出效能最佳的配置,也更能發現特定變更所引發的問題。
當需要進一步除錯時,開發者可透過Grafana Assistant以自然語言查詢,交叉檢視AI資料與其他遙測訊號,協助分析延遲尖峰的成因,或找出較高成本的操作與工具。要是再結合代理專屬操作手冊(Runbook),當代理出現異常行為時,用戶也可直接要求助理閱讀手冊並提出修復建議。
除了AI Observability in Grafana Cloud,Grafana Labs也發表Grafana Cloud CLI(GCX),這是一套支援自動化與代理驅動工作流程的命令列工具,另也推出開源基準測試工具o11y-bench,用來評估AI代理執行可觀測性工作流程的表現。