Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
本頁面說明如何存取及使用 Cloud Composer 環境的監控資訊主頁。
如需監控環境重點指標的教學課程,請參閱「依重點指標監控環境健康狀態和效能」。
如要進一步瞭解特定指標,請參閱「使用 Cloud Monitoring 監控環境」。
前往監控資訊主頁
監控資訊主頁包含指標和圖表,可用於監控環境中 DAG 執行作業的趨勢,以及找出 Airflow 元件和 Cloud Composer 資源的問題。
如要存取環境的監控資訊主頁,請按照下列步驟操作:
前往 Google Cloud 控制台的「Environments」頁面。
在環境清單中,按一下環境名稱。「環境詳細資料」頁面隨即開啟。
前往「監控」分頁。
設定指標快訊
您可以點選監控資訊卡角落中的鈴鐺圖示,為指標設定快訊。

在 Monitoring 中查看指標
您可以前往 Monitoring 進一步查看指標。
如要從 Cloud Composer 監控資訊主頁前往該頁面,請按一下指標資訊卡右上角的三點圖示,然後選取「在指標瀏覽器中查看」。

指標說明
每個 Cloud Composer 環境都有專屬的監控資訊主頁。特定環境的監控資訊主頁上顯示的指標,只會追蹤該環境的 DAG 執行作業、Airflow 元件和環境詳細資料。舉例來說,如果您有兩個環境,資訊主頁就不會匯總兩個環境的指標。
環境總覽
環境指標 | 說明 |
---|---|
環境健康狀態 (Airflow 監控 DAG) | 時間軸:顯示 Composer 部署作業的健康狀態。綠色狀態只會反映 Composer 部署作業的狀態。這並不表示所有 Airflow 元件都已啟用,且 DAG 可正常執行。 |
排程器活動訊號 | 時間軸顯示 Airflow 排程器的活動訊號。檢查紅色區域,找出 Airflow 排程器問題。如果環境中有多個排程器,只要至少有一個排程器回應,心跳狀態就會正常。 |
網路伺服器健康狀態 | 時間軸顯示 Airflow 網路伺服器的狀態。系統會根據 Airflow 網路伺服器傳回的 HTTP 狀態碼產生這項狀態。 |
資料庫健康狀態 | 時間軸顯示與代管 Airflow DB 的 Cloud SQL 執行個體連線狀態。 |
環境作業 | 時間軸顯示修改環境的作業,例如執行設定更新或載入環境快照。 |
維護作業 | 時間軸,顯示在環境叢集中執行維護作業的期間。 |
環境依附元件 | 時間軸,顯示環境作業的可及性和權限檢查狀態。 |
DAG 統計資料
環境指標 | 說明 |
---|---|
成功的 DAG 執行作業 | 在所選時間範圍內,環境中所有 DAG 成功執行的總數。如果成功執行 DAG 的次數低於預期,可能表示發生失敗 (請參閱「DAG 執行失敗」) 或排程問題。 |
失敗的 DAG 執行作業 失敗的工作 | 在所選時間範圍內,環境中所有 DAG 失敗執行作業的總數。在所選時間範圍內,環境中失敗的工作總數。工作失敗不一定會導致 DAG 執行失敗,但這類情況可能會提供有用的信號,協助您排解 DAG 錯誤。 |
已完成的 DAG 執行作業 | 在所選時間範圍內,DAG 成功和失敗的次數。這有助於找出 DAG 執行作業的暫時性問題,並與其他事件建立關聯,例如工作 Pod 淘汰。 |
已完成的工作 | 環境中已完成的工作數量,並列出成功和失敗的工作。 |
DAG 執行時間中位數 | DAG 執行作業的持續時間中位數。這張圖表可協助您找出效能問題,並掌握 DAG 持續時間的趨勢。 |
Airflow 工作 | 在指定時間點處於「執行中」、「已排入佇列」或「延遲」狀態的工作數量。Airflow 工作是指在 Airflow 中處於佇列狀態的工作,這些工作可以進入 Celery 或 Kubernetes 執行器代理程式佇列。Celery 佇列中的工作是指已排入 Celery 代理程式佇列中的工作執行個體。 |
已停止的無效工作 | 在短時間範圍內,已停止的無效工作數量。無效工作通常是因為 Airflow 程序的外部終止作業而產生。Airflow 排程器會定期終止無效工作,這會反映在圖表中。 |
DAG 包裹大小 | 在特定時間點,Airflow 在環境的值區中部署並處理的 DAG 數量。這有助於分析效能瓶頸。舉例來說,如果 DAG 部署次數增加,可能會因負載過多而導致效能降低。 |
DAG 處理器錯誤 | 處理 DAG 檔案時,每秒發生的錯誤數量和逾時次數。這個值代表了 DAG 處理器回報的錯誤頻率 (與失敗的 DAG 數量不同)。 |
剖析所有 DAG 的總時間長度 | 這張圖表顯示 Airflow 處理環境中所有 DAG 所需的總時間。解析時間增加可能會影響排程效率。詳情請參閱「DAG 剖析時間與 DAG 執行時間的差異」。 |
排程器統計資料
環境指標 | 說明 |
---|---|
排程器活動訊號 | 請參閱環境總覽。 |
排程器 CPU 總用量 | 在所有 Airflow 排程器 Pod 中運作的容器使用 vCPU 核心的總數,以及所有排程器的 vCPU 總數限制。 |
排程器記憶體用量總計 | 在所有 Airflow 排程器 Pod 中運作的容器所使用的記憶體總量,以及所有排程器的 vCPU 總數限制。 |
排程器磁碟用量總計 | 在所有 Airflow 排程器 pod 中執行的容器所使用的磁碟空間總量,以及所有排程器的磁碟空間總限制。 |
排程器容器重新啟動次數 | 個別排程器容器的重新啟動總數。 |
排程器 Pod 撤銷次數 | Airflow 排程器 Pod 撤銷次數。當環境叢集中的特定 Pod 達到資源限制時,就可能會發生 Pod 淘汰。 |
工作者統計資料
環境指標 | 說明 |
---|---|
工作站 CPU 使用率總計 | 在所有 Airflow 工作站 Pod 中運作的容器使用 vCPU 核心的總數,以及所有工作站的 vCPU 總數限制。 |
工作站記憶體總用量 | 在所有 Airflow 工作站 Pod 中執行的容器記憶體總用量,以及所有工作站的 vCPU 總限制。 |
工作站磁碟總用量 | 在所有 Airflow 工作站 pod 中執行的容器所使用的磁碟空間總量,以及所有工作站的磁碟空間總限制。 |
活躍的工作站數量 | 環境中目前的工作站數量。在 Cloud Composer 2 中,環境會自動調度資源,以便調整活動工作站的數量。 |
工作站容器重新啟動 | 個別工作站容器的重新啟動總數。 |
工作站 Pod 撤銷次數 | Airflow 工作站 Pod 撤銷次數。當環境叢集中的特定 Pod 達到資源限制時,就可能會發生 Pod 淘汰。如果 Airflow 工作站 Pod 遭到撤銷,則在該 Pod 上執行的所有工作執行個體都會中斷,並且稍後由 Airflow 標示為失敗。 |
Airflow 工作 | 請參閱環境總覽。 |
Celery 代理程式發布逾時次數 |
將工作發布至 Celery 代理程式時發生的 AirflowTaskTimeout 錯誤總數。這項指標對應至 celery.task_timeout_error Airflow 指標。 |
Celery 執行指令失敗次數 |
Celery 工作中的非零結束代碼總數。這項指標對應至 celery.execute_command.failure Airflow 指標。 |
由系統終止的工作 | 工作執行器透過 SIGKILL 終止的工作流程工作數量 (例如因工作站記憶體或活動訊號問題而終止)。 |
觸發器統計資料
環境指標 | 說明 |
---|---|
延後的工作 | 在指定時間處於「延遲」狀態的工作數量。如要進一步瞭解延遲工作,請參閱「使用可延遲運算子」 |
已完成的觸發條件 | 所有觸發器 Pod 中已完成的觸發條件數量。 |
執行觸發條件 | 每個觸發條件執行個體執行的觸發條件數量。這個圖表會為每個觸發器顯示個別的折線。 |
封鎖觸發條件 | 導致主執行緒無法運作的觸發條件數量 (可能因為未完全非同步而導致)。 |
觸發器 CPU 總用量 | 在所有 Airflow 觸發器 Pod 中運作的容器使用 vCPU 核心的總數,以及所有觸發器的 vCPU 總數限制。 |
觸發器記憶體總用量 | 在所有 Airflow 觸發器 Pod 中運作的容器總記憶體用量,以及所有觸發器的 vCPU 總數限制。 |
觸發器磁碟總用量 | 在所有 Airflow 觸發器 pod 中運作的容器使用磁碟空間的總量,以及所有觸發器的磁碟空間總限制。 |
使用中的觸發條件 | 有效觸發條件例項數量。 |
觸發器容器重新啟動 | 觸發器容器的重新啟動次數。 |
網路伺服器統計資料
環境指標 | 說明 |
---|---|
網路伺服器健康狀態 | 請參閱環境總覽。 |
網路伺服器 CPU 使用率 | 在所有 Airflow 網路伺服器 Pod 中運作的容器使用 vCPU 核心的總數,以及所有網路伺服器的 vCPU 總數限制。 |
網路伺服器記憶體用量 | 在所有 Airflow 網路伺服器 Pod 中運作的容器所使用的記憶體總量,以及所有網路伺服器的總 vCPU 限制。 |
網路伺服器磁碟用量總計 | 在所有 Airflow 網路伺服器 Pod 中執行的容器所使用的磁碟空間總量,以及所有網路伺服器的磁碟空間總量限制。 |
SQL 資料庫統計資料
環境指標 | 說明 |
---|---|
資料庫健康狀態 | 請參閱環境總覽。 |
資料庫 CPU 使用率 | 您環境中 Cloud SQL 資料庫執行個體的 CPU 核心使用率。 |
資料庫記憶體用量 | 環境中 Cloud SQL 資料庫執行個體的記憶體總用量。 |
資料庫磁碟用量 | 您環境中 Cloud SQL 資料庫執行個體的磁碟空間總用量。這項指標適用於 Cloud SQL 資料庫執行個體本身,因此當 Airflow 資料庫大小縮減時,指標不會減少。如要查看顯示 Airflow 資料庫內容大小的指標,請參閱 Airflow 中繼資料資料庫大小。 |
Airflow 中繼資料資料庫大小 | Airflow 中繼資料資料庫的大小。這個指標適用於環境中的 Airflow 元件,可顯示 Cloud SQL 資料庫執行個體中 Airflow 中繼資料資料庫所占用的磁碟空間量。當 Airflow 中繼資料資料庫的大小減少時 (例如在 Airflow 資料庫維護後),這個指標就會減少,並判斷是否可以建立快照和升級環境。這個指標與「資料庫磁碟使用量」指標不同,後者會顯示 Cloud SQL 資料庫執行個體使用的磁碟空間量。 |
資料庫連線 | 資料庫有效連線總數和連線總數限制。 |
DAG 剖析時間和 DAG 執行時間的差異
環境的監控資訊主頁會顯示剖析 Cloud Composer 環境中所有 DAG 所需的總時間,以及執行 DAG 的平均時間。
剖析 DAG 和排定 DAG 執行作業,是 Airflow 排程器執行的兩項獨立作業。

DAG 剖析時間是 Airflow 排程器讀取及剖析 DAG 檔案所需的時間。
在 Airflow 排程器可以排定 DAG 中的任何工作之前,排程器必須剖析 DAG 檔案,以便找出 DAG 的結構和定義的工作。剖析 DAG 檔案後,排程器就能開始排定 DAG 中的任務。
DAG 執行時間是 DAG 所有工作執行時間的總和。
如要查看從 DAG 執行特定 Airflow 工作所需的時間,請在 Airflow 網頁介面中選取 DAG,然後開啟「Task duration」分頁。這個分頁會顯示上次指定數量的 DAG 執行作業的執行時間。