
商傳媒|葉安庭/綜合外電報導Databricks 近日宣布,已將 OpenTelemetry (OTel) 追蹤功能直接整合至其 Unity Catalog,此舉旨在為人工智慧(AI)代理提供具治理且具成本效益的雲端資料可觀察性,並簡化遙測資料管道。這項整合將有助於解決 AI 代理產生的大量追蹤資料,以及傳統可觀察性工具在處理成本與治理上所面臨的挑戰。
隨著 AI 應用日益成熟並投入生產環境,透過追蹤資料來理解 AI 代理的行為變得至關重要,這包括捕捉提示(prompts)、工具呼叫(tool calls)、回應及延遲等資訊。若缺乏健全的追蹤機制,AI 代理的除錯、評估與治理將變得異常複雜。傳統的可觀察性平台,面對 AI 代理追蹤資料的規模與敏感性時,往往會遇到高昂的資料保留成本、碎片化的治理,以及需要額外資料管道才能將追蹤資料整合至分析工作流程等限制。尤其是敏感的提示資料,更使得將追蹤資料傳送至第三方 SaaS 工具時,產生資安摩擦與資料主權疑慮。
Databricks 的新整合方案將追蹤資料轉移至其 Lakehouse 架構中,將其視為首要資料集。這讓團隊能夠運用熟悉的 SQL 工具進行查詢、建立儀表板與 ETL(萃取、轉換、載入)管道,同時也能套用如個人身份資訊(PII)遮罩等細緻的治理控制。該平台也透過 Zerobus Ingest 引入一個全託管的無伺服器擷取路徑,該引擎原生支援透過 gRPC 和 REST API 的標準 OpenTelemetry 協定(OTLP),允許 OpenTelemetry 相容收集器與 MLflow 等應用框架直接匯出跨度(spans)、日誌與指標,從而無需中介的訊息傳輸總線如 Kafka,並降低營運開銷。
這種「單一儲存點」(single-sink)的架構,能將遙測資料直接串流至 Lakehouse,支援高吞吐量擷取與長期保留,同時避免 SaaS 可觀察性解決方案常見的成本壓力。透過將追蹤資料直接導入 Unity Catalog,Databricks 讓團隊能超越基礎除錯,使生產追蹤資料能立即用於分析,加速真實世界使用、模型評估與持續改進之間的迭代循環。此整合也強化了 MLflow 的評估堆疊,支援大規模離線評估與生產系統的持續監控,並在 MLflow Experiment UI 中引入原生可觀察性儀表板,提供追蹤量、錯誤、延遲、權杖使用量與成本等洞察,旨在為 AI 代理創建一個持續改進的循環。


