AI 維運術語表

從 AIOps 到 Zero Trust,IT 維運專業術語完整定義。

Artificial Intelligence for IT Operations — 運用 AI 和機器學習增強與自動化 IT 維運流程的方法論。

Mean Time to Recovery — 平均復原時間,衡量系統從故障中恢復所需的平均時間。

Mean Time to Acknowledge — 平均確認時間,從告警觸發到有人開始處理的時間。

Mean Time to Detect — 平均偵測時間,從問題發生到被偵測到的時間。

Site Reliability Engineering — 由 Google 發起的工程實踐,專注於透過軟體工程方法解決維運問題。

標準操作程序手冊,記錄 IT 團隊處理常見事件或執行特定任務的步驟。Runbook 自動化是將這些步驟程式化執行。

透過系統的外部輸出(日誌、指標、追蹤)來推斷系統內部狀態的能力。比傳統監控更全面。

將 IT 維運操作整合到協作通訊工具(如 Slack、Teams)中的實踐方式。

Just-in-Time 存取控制 — 僅在需要時、有限時間內授予存取權限的安全實踐。

定義自動化操作可執行邊界的規則和政策,確保 AI 和自動化在安全、合規的框架內運作。

Arova Nexus 的專有 AI 引擎。透過 5 步驟推理流程(感知、理解、規劃、執行、學習)在企業治理框架內自主處理 IT 維運任務。

IT Service Management — IT 服務管理,設計、交付、管理和改進 IT 服務的實踐與流程集合。

Configuration Management Database — 配置管理資料庫,記錄 IT 環境中所有配置項目及其關係。

分析多個告警和事件之間的關聯性,將大量原始告警歸納為少量有意義的事件的技術。

系統在偵測到問題後自動執行修復動作,無需人工介入的能力。