使用監控資訊主頁

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

本頁面說明如何存取及使用 Cloud Composer 環境的監控資訊主頁。

前往監控資訊主頁

監控資訊主頁包含指標和圖表,可用於監控環境中 DAG 執行作業的趨勢,以及找出 Airflow 元件和 Cloud Composer 資源的問題。

如要存取環境的監控資訊主頁,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Environments」頁面。

    前往「環境」

  2. 在環境清單中,按一下環境名稱。「環境詳細資料」頁面隨即開啟。

  3. 前往「監控」分頁。

設定指標快訊

您可以點選監控資訊卡角落中的鈴鐺圖示,為指標設定快訊。

針對監控資訊主頁顯示的指標建立警告
圖 1. 針對監控資訊主頁上顯示的指標建立警告 (按一下即可放大)

在 Monitoring 中查看指標

您可以前往 Monitoring 進一步查看指標。

如要從 Cloud Composer 監控資訊主頁前往該頁面,請按一下指標資訊卡右上角的三點圖示,然後選取「在指標瀏覽器中查看」

在 Metrics Explorer 的監控資訊主頁中查看指標
圖 2. 在 Metrics Explorer 的監控資訊主頁中查看指標 (按一下可放大)

指標說明

每個 Cloud Composer 環境都有專屬的監控資訊主頁。特定環境的監控資訊主頁上顯示的指標,只會追蹤該環境的 DAG 執行作業、Airflow 元件和環境詳細資料。舉例來說,如果您有兩個環境,資訊主頁就不會匯總兩個環境的指標。

環境總覽

環境指標 說明
環境健康狀態 (Airflow 監控 DAG) 時間軸:顯示 Composer 部署作業的健康狀態。綠色狀態只會反映 Composer 部署作業的狀態。這並不表示所有 Airflow 元件都已啟用,且 DAG 可正常執行。
排程器活動訊號 時間軸顯示 Airflow 排程器的活動訊號。檢查紅色區域,找出 Airflow 排程器問題。如果環境中有多個排程器,只要至少有一個排程器回應,心跳狀態就會正常。
網路伺服器健康狀態 時間軸顯示 Airflow 網路伺服器的狀態。系統會根據 Airflow 網路伺服器傳回的 HTTP 狀態碼產生這項狀態。
資料庫健康狀態 時間軸顯示與代管 Airflow DB 的 Cloud SQL 執行個體連線狀態。
環境作業 時間軸顯示修改環境的作業,例如執行設定更新或載入環境快照。
維護作業 時間軸,顯示在環境叢集中執行維護作業的期間。
環境依附元件 時間軸,顯示環境作業的可及性和權限檢查狀態。

DAG 統計資料

環境指標 說明
成功的 DAG 執行作業 在所選時間範圍內,環境中所有 DAG 成功執行的總數。如果成功執行 DAG 的次數低於預期,可能表示發生失敗 (請參閱「DAG 執行失敗」) 或排程問題。
失敗的 DAG 執行作業 失敗的工作 在所選時間範圍內,環境中所有 DAG 失敗執行作業的總數。在所選時間範圍內,環境中失敗的工作總數。工作失敗不一定會導致 DAG 執行失敗,但這類情況可能會提供有用的信號,協助您排解 DAG 錯誤。
已完成的 DAG 執行作業 在所選時間範圍內,DAG 成功和失敗的次數。這有助於找出 DAG 執行作業的暫時性問題,並與其他事件建立關聯,例如工作 Pod 淘汰。
已完成的工作 環境中已完成的工作數量,並列出成功和失敗的工作。
DAG 執行時間中位數 DAG 執行作業的持續時間中位數。這張圖表可協助您找出效能問題,並掌握 DAG 持續時間的趨勢。
Airflow 工作 在指定時間點處於「執行中」、「已排入佇列」或「延遲」狀態的工作數量。Airflow 工作是指在 Airflow 中處於佇列狀態的工作,這些工作可以進入 Celery 或 Kubernetes 執行器代理程式佇列。Celery 佇列中的工作是指已排入 Celery 代理程式佇列中的工作執行個體。
已停止的無效工作 在短時間範圍內,已停止的無效工作數量。無效工作通常是因為 Airflow 程序的外部終止作業而產生。Airflow 排程器會定期終止無效工作,這會反映在圖表中。
DAG 包裹大小 在特定時間點,Airflow 在環境的值區中部署並處理的 DAG 數量。這有助於分析效能瓶頸。舉例來說,如果 DAG 部署次數增加,可能會因負載過多而導致效能降低。
DAG 處理器錯誤 處理 DAG 檔案時,每秒發生的錯誤數量和逾時次數。這個值代表了 DAG 處理器回報的錯誤頻率 (與失敗的 DAG 數量不同)。
剖析所有 DAG 的總時間長度 這張圖表顯示 Airflow 處理環境中所有 DAG 所需的總時間。解析時間增加可能會影響排程效率。詳情請參閱「DAG 剖析時間與 DAG 執行時間的差異」。

排程器統計資料

環境指標 說明
排程器活動訊號 請參閱環境總覽
排程器 CPU 總用量 在所有 Airflow 排程器 Pod 中運作的容器使用 vCPU 核心的總數,以及所有排程器的 vCPU 總數限制。
排程器記憶體用量總計 在所有 Airflow 排程器 Pod 中運作的容器所使用的記憶體總量,以及所有排程器的 vCPU 總數限制。
排程器磁碟用量總計 在所有 Airflow 排程器 pod 中執行的容器所使用的磁碟空間總量,以及所有排程器的磁碟空間總限制。
排程器容器重新啟動次數 個別排程器容器的重新啟動總數。
排程器 Pod 撤銷次數 Airflow 排程器 Pod 撤銷次數。當環境叢集中的特定 Pod 達到資源限制時,就可能會發生 Pod 淘汰。

工作者統計資料

環境指標 說明
工作站 CPU 使用率總計 在所有 Airflow 工作站 Pod 中運作的容器使用 vCPU 核心的總數,以及所有工作站的 vCPU 總數限制。
工作站記憶體總用量 在所有 Airflow 工作站 Pod 中執行的容器記憶體總用量,以及所有工作站的 vCPU 總限制。
工作站磁碟總用量 在所有 Airflow 工作站 pod 中執行的容器所使用的磁碟空間總量,以及所有工作站的磁碟空間總限制。
活躍的工作站數量 環境中目前的工作站數量。在 Cloud Composer 2 中,環境會自動調度資源,以便調整活動工作站的數量。
工作站容器重新啟動 個別工作站容器的重新啟動總數。
工作站 Pod 撤銷次數 Airflow 工作站 Pod 撤銷次數。當環境叢集中的特定 Pod 達到資源限制時,就可能會發生 Pod 淘汰。如果 Airflow 工作站 Pod 遭到撤銷,則在該 Pod 上執行的所有工作執行個體都會中斷,並且稍後由 Airflow 標示為失敗。
Airflow 工作 請參閱環境總覽
Celery 代理程式發布逾時次數 將工作發布至 Celery 代理程式時發生的 AirflowTaskTimeout 錯誤總數。這項指標對應至 celery.task_timeout_error Airflow 指標。
Celery 執行指令失敗次數 Celery 工作中的非零結束代碼總數。這項指標對應至 celery.execute_command.failure Airflow 指標。
由系統終止的工作 工作執行器透過 SIGKILL 終止的工作流程工作數量 (例如因工作站記憶體或活動訊號問題而終止)。

觸發器統計資料

環境指標 說明
延後的工作 在指定時間處於「延遲」狀態的工作數量。如要進一步瞭解延遲工作,請參閱「使用可延遲運算子
已完成的觸發條件 所有觸發器 Pod 中已完成的觸發條件數量。
執行觸發條件 每個觸發條件執行個體執行的觸發條件數量。這個圖表會為每個觸發器顯示個別的折線。
封鎖觸發條件 導致主執行緒無法運作的觸發條件數量 (可能因為未完全非同步而導致)。
觸發器 CPU 總用量 在所有 Airflow 觸發器 Pod 中運作的容器使用 vCPU 核心的總數,以及所有觸發器的 vCPU 總數限制。
觸發器記憶體總用量 在所有 Airflow 觸發器 Pod 中運作的容器總記憶體用量,以及所有觸發器的 vCPU 總數限制。
觸發器磁碟總用量 在所有 Airflow 觸發器 pod 中運作的容器使用磁碟空間的總量,以及所有觸發器的磁碟空間總限制。
使用中的觸發條件 有效觸發條件例項數量。
觸發器容器重新啟動 觸發器容器的重新啟動次數。

網路伺服器統計資料

環境指標 說明
網路伺服器健康狀態 請參閱環境總覽
網路伺服器 CPU 使用率 在所有 Airflow 網路伺服器 Pod 中運作的容器使用 vCPU 核心的總數,以及所有網路伺服器的 vCPU 總數限制。
網路伺服器記憶體用量 在所有 Airflow 網路伺服器 Pod 中運作的容器所使用的記憶體總量,以及所有網路伺服器的總 vCPU 限制。
網路伺服器磁碟用量總計 在所有 Airflow 網路伺服器 Pod 中執行的容器所使用的磁碟空間總量,以及所有網路伺服器的磁碟空間總量限制。

SQL 資料庫統計資料

環境指標 說明
資料庫健康狀態 請參閱環境總覽
資料庫 CPU 使用率 您環境中 Cloud SQL 資料庫執行個體的 CPU 核心使用率。
資料庫記憶體用量 環境中 Cloud SQL 資料庫執行個體的記憶體總用量。
資料庫磁碟用量 您環境中 Cloud SQL 資料庫執行個體的磁碟空間總用量。這項指標適用於 Cloud SQL 資料庫執行個體本身,因此當 Airflow 資料庫大小縮減時,指標不會減少。如要查看顯示 Airflow 資料庫內容大小的指標,請參閱 Airflow 中繼資料資料庫大小。
Airflow 中繼資料資料庫大小 Airflow 中繼資料資料庫的大小。這個指標適用於環境中的 Airflow 元件,可顯示 Cloud SQL 資料庫執行個體中 Airflow 中繼資料資料庫所占用的磁碟空間量。當 Airflow 中繼資料資料庫的大小減少時 (例如在 Airflow 資料庫維護後),這個指標就會減少,並判斷是否可以建立快照和升級環境。這個指標與「資料庫磁碟使用量」指標不同,後者會顯示 Cloud SQL 資料庫執行個體使用的磁碟空間量。
資料庫連線 資料庫有效連線總數和連線總數限制。

DAG 剖析時間和 DAG 執行時間的差異

環境的監控資訊主頁會顯示剖析 Cloud Composer 環境中所有 DAG 所需的總時間,以及執行 DAG 的平均時間。

剖析 DAG 和排定 DAG 執行作業,是 Airflow 排程器執行的兩項獨立作業。

Airflow 排程器執行的 DAG 剖析和工作排程作業
圖 3. Airflow 排程器執行的 DAG 剖析和工作排程作業 (按一下即可放大)

DAG 剖析時間是 Airflow 排程器讀取及剖析 DAG 檔案所需的時間。

在 Airflow 排程器可以排定 DAG 中的任何工作之前,排程器必須剖析 DAG 檔案,以便找出 DAG 的結構和定義的工作。剖析 DAG 檔案後,排程器就能開始排定 DAG 中的任務。

DAG 執行時間是 DAG 所有工作執行時間的總和。

如要查看從 DAG 執行特定 Airflow 工作所需的時間,請在 Airflow 網頁介面中選取 DAG,然後開啟「Task duration」分頁。這個分頁會顯示上次指定數量的 DAG 執行作業的執行時間。