Use o painel de monitoramento

Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1

Esta página descreve como acessar e usar o painel de monitoramento para um ambiente do Cloud Composer.

Acesse o painel de monitoramento

O painel de monitoramento contém métricas e gráficos para monitorar tendências nas execuções do DAG em seu ambiente e identificar problemas com componentes do Airflow e recursos do Cloud Composer.

Para acessar o painel de monitoramento do seu ambiente:

  1. No Google Cloud console, vá para a página Ambientes .

    Ir para Ambientes

  2. Na lista de ambientes, clique no nome do seu ambiente. A página de detalhes do ambiente será aberta.

  3. Acesse a aba Monitoramento .

Configurar alertas para métricas

Você pode configurar alertas para uma métrica clicando no ícone de sino no canto do cartão de monitoramento.

Crie um alerta para uma métrica exibida no painel de monitoramento
Figura 1. Crie um alerta para uma métrica exibida no painel de monitoramento (clique para ampliar)

Exibir uma métrica no Monitoramento

Você pode analisar uma métrica mais detalhadamente visualizando-a no Monitoramento.

Para navegar até lá a partir do painel de monitoramento do Cloud Composer, clique nos três pontos no canto superior direito de um cartão de métrica e selecione Exibir no Explorador de métricas .

Visualizar uma métrica do painel de monitoramento no Metrics Explorer
Figura 2. Visualize uma métrica do painel de monitoramento no Metrics Explorer (clique para ampliar)

Descrições métricas

Cada ambiente do Cloud Composer tem seu próprio painel de monitoramento. As métricas exibidas em um painel de monitoramento para um ambiente específico rastreiam apenas as execuções do DAG, os componentes do Airflow e os detalhes do ambiente para esse ambiente. Por exemplo, se você tiver dois ambientes, o painel não agregará métricas de ambos.

Visão geral do ambiente

Métrica ambiental Descrição
Saúde ambiental (monitoramento de fluxo de ar DAG) Uma linha do tempo mostrando a integridade da implantação do Composer. O status verde reflete apenas o status da implantação do Composer. Isso não significa que todos os componentes do Airflow estejam operacionais e que os DAGs estejam em execução.
Batimento cardíaco do agendador Uma linha do tempo mostrando o heartbeat do agendador do Airflow. Verifique as áreas vermelhas para identificar problemas no agendador do Airflow. Se o seu ambiente tiver mais de um agendador, o status do heartbeat é íntegro, desde que pelo menos um dos agendadores esteja respondendo.
Saúde do servidor web Uma linha do tempo mostrando o status do servidor web Airflow. Esse status é gerado com base nos códigos de status HTTP retornados pelo servidor web Airflow.
Saúde do banco de dados Uma linha do tempo mostrando o status da conexão com a instância do Cloud SQL que hospeda o banco de dados Airflow.
Operações ambientais Uma linha do tempo mostrando operações que modificam o ambiente, como executar atualizações de configuração ou carregar instantâneos do ambiente.
Operações de manutenção Uma linha do tempo mostrando os períodos em que as operações de manutenção são executadas no cluster do ambiente.
Dependências do ambiente Uma linha do tempo mostrando o status das verificações de acessibilidade e permissões para a operação do ambiente.

Estatísticas do DAG

Métrica ambiental Descrição
Execuções DAG bem-sucedidas O número total de execuções bem-sucedidas de todos os DAGs no ambiente durante o intervalo de tempo selecionado. Se o número de execuções bem-sucedidas de DAGs cair abaixo dos níveis esperados, isso pode indicar falhas (consulte Execuções de DAGs com falha ) ou um problema de agendamento.
Execuções de DAG com falha Tarefas com falha O número total de execuções com falha para todos os DAGs no ambiente durante o intervalo de tempo selecionado. O número total de tarefas que falharam no ambiente durante o intervalo de tempo selecionado. Tarefas com falha nem sempre causam falha na execução de um DAG, mas podem ser um sinal útil para solucionar erros de DAG.
Execuções DAG concluídas O número de sucessos e falhas de DAGs em intervalos no intervalo de tempo selecionado. Isso pode ajudar a identificar problemas transitórios com execuções de DAGs e correlacioná-los com outros eventos, como remoções de Worker Pods.
Tarefas concluídas O número de tarefas concluídas no ambiente, com uma divisão de tarefas bem-sucedidas e malsucedidas.
Duração média da execução do DAG Duração média das execuções de DAGs. Este gráfico pode ajudar a identificar problemas de desempenho e identificar tendências na duração de DAGs.
Tarefas de fluxo de ar O número de tarefas em execução, em fila ou adiadas em um determinado momento. Tarefas do Airflow são tarefas que estão em fila no Airflow e podem ir para a fila do Celery ou do Kubernetes Executor Broker. Tarefas em fila do Celery são instâncias de tarefas que são colocadas na fila do Celery Broker.
Tarefas zumbis mortas O número de tarefas zumbis finalizadas em um curto período de tempo. Tarefas zumbis são frequentemente causadas pelo encerramento externo de processos do Airflow. O agendador do Airflow finaliza tarefas zumbis periodicamente, o que é refletido neste gráfico.
Tamanho da bolsa DAG O número de DAGs implantados no bucket do seu ambiente e processados ​​pelo Airflow em um determinado momento. Isso pode ser útil ao analisar gargalos de desempenho. Por exemplo, um número maior de implantações de DAGs pode prejudicar o desempenho devido ao excesso de carga.
Erros do processador DAG O número de erros e tempos limite por segundo encontrados durante o processamento de arquivos DAG. O valor indica a frequência de erros relatados pelo processador DAG (é um valor diferente do número de DAGs com falha).
Tempo total de análise para todos os DAGs Um gráfico mostrando o tempo total necessário para o Airflow processar todos os DAGs no ambiente. O aumento do tempo de análise pode afetar a eficiência do agendamento. Consulte Diferença entre o tempo de análise e o tempo de execução do DAG para obter mais informações.

Estatísticas do agendador

Métrica ambiental Descrição
Agendador de batimentos cardíacos Veja Visão geral do ambiente .
Uso total da CPU do planejador O uso total de núcleos de vCPU por contêineres em execução em todos os pods do agendador do Airflow e o limite combinado de vCPU para todos os agendadores.
Uso total de memória do planejador O uso total de memória por contêineres em execução em todos os pods do agendador do Airflow e o limite combinado de vCPU para todos os agendadores.
Uso total do disco do planejador O uso total de espaço em disco por contêineres em execução em todos os pods do agendador do Airflow e o limite combinado de espaço em disco para todos os agendadores.
Reinicializações do contêiner do agendador O número total de reinicializações para contêineres individuais do agendador.
Remoções do Pod do Agendador Número de remoções de Pod do Agendador do Airflow. A remoção de Pod pode ocorrer quando um Pod específico no cluster do seu ambiente atinge seus limites de recursos.

Estatísticas dos trabalhadores

Métrica ambiental Descrição
Uso total da CPU do trabalhador O uso total de núcleos de vCPU por contêineres em execução em todos os pods de trabalho do Airflow e o limite combinado de vCPU para todos os trabalhos.
Uso total de memória do trabalhador O uso total de memória por contêineres em execução em todos os pods de trabalho do Airflow e o limite combinado de vCPU para todos os trabalhos.
Uso total do disco do trabalhador O uso total de espaço em disco por contêineres em execução em todos os pods de trabalho do Airflow e o limite combinado de espaço em disco para todos os trabalhos.
Trabalhadores ativos O número atual de trabalhadores no seu ambiente. No Cloud Composer 2, seu ambiente dimensiona automaticamente o número de trabalhadores ativos.
O contêiner de trabalho é reiniciado O número total de reinicializações para contêineres de trabalhadores individuais.
Despejos de Pods de Trabalhadores Número de remoções de pods de trabalho do Airflow. A remoção de pods pode ocorrer quando um pod específico no cluster do seu ambiente atinge seus limites de recursos. Se um pod de trabalho do Airflow for removido, todas as instâncias de tarefas em execução nesse pod serão interrompidas e, posteriormente, marcadas como falhas pelo Airflow.
Tarefas de fluxo de ar Veja Visão geral do ambiente .
Tempo limite de publicação do Celery Broker O número total de erros AirflowTaskTimeout gerados ao publicar tarefas no Celery Brokers. Esta métrica corresponde à métrica celery.task_timeout_error do Airflow.
Falhas no comando de execução do Celery O número total de códigos de saída diferentes de zero de tarefas do Celery. Esta métrica corresponde à métrica celery.execute_command.failure do Airflow.
Tarefas encerradas pelo sistema O número de tarefas de fluxo de trabalho em que o executor da tarefa foi encerrado com um SIGKILL (por exemplo, devido a problemas de memória ou pulsação do trabalhador).

Estatísticas do gatilho

Métrica ambiental Descrição
Tarefas adiadas O número de tarefas que estão no estado adiado em um determinado momento. Para obter mais informações sobre tarefas adiadas, consulte Usar operadores adiáveis.
Gatilhos concluídos O número de gatilhos concluídos em todos os pods de gatilho.
Gatilhos em execução Número de gatilhos em execução por instância de gatilho. Este gráfico mostra linhas separadas para cada gatilho.
Gatilhos de bloqueio Número de gatilhos que bloquearam o thread principal (provavelmente por não serem totalmente assíncronos).
Uso total da CPU dos acionadores O uso total de núcleos de vCPU por contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de vCPU para todos os gatilhos.
Uso total de memória dos gatilhos O uso total de memória por contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de vCPU para todos os gatilhos.
Uso total do disco dos acionadores O uso total de espaço em disco por contêineres em execução em todos os pods de gatilho do Airflow e o limite combinado de espaço em disco para todos os gatilhos.
Gatilhos ativos O número de instâncias ativas do gatilho.
O contêiner do gatilho é reiniciado O número de reinicializações do contêiner do acionador.

Estatísticas do servidor web

Métrica ambiental Descrição
Saúde do servidor web Veja Visão geral do ambiente .
Uso da CPU do servidor web O uso total de núcleos de vCPU por contêineres em execução em todos os Pods do servidor web Airflow e o limite combinado de vCPU para todos os servidores web.
Uso de memória do servidor web O uso total de memória por contêineres em execução em todos os Pods do servidor web Airflow e o limite combinado de vCPU para todos os servidores web.
Uso total do disco do servidor web O uso total de espaço em disco por contêineres em execução em todos os Pods do servidor web Airflow e o limite combinado de espaço em disco para todos os servidores web.

Estatísticas de banco de dados SQL

Métrica ambiental Descrição
Saúde do banco de dados Veja Visão geral do ambiente .
Uso da CPU do banco de dados O uso de núcleos de CPU pelas instâncias do banco de dados Cloud SQL do seu ambiente.
Uso de memória do banco de dados O uso total de memória pelas instâncias do banco de dados Cloud SQL do seu ambiente.
Uso do disco do banco de dados O uso total de espaço em disco pelas instâncias do banco de dados Cloud SQL do seu ambiente. Essa métrica se aplica à própria instância do banco de dados Cloud SQL, portanto, a métrica não diminui quando o tamanho do banco de dados Airflow é reduzido. Para uma métrica que mostra o tamanho do conteúdo do banco de dados Airflow, consulte Tamanho do banco de dados de metadados do Airflow.
Tamanho do banco de dados de metadados do Airflow Tamanho do banco de dados de metadados do Airflow. Esta métrica se aplica ao componente Airflow do seu ambiente e mostra a quantidade de espaço em disco ocupada pelo banco de dados de metadados do Airflow na instância do banco de dados Cloud SQL. Essa métrica diminui quando o tamanho do banco de dados de metadados do Airflow é reduzido (por exemplo, após a manutenção do banco de dados Airflow ) e determina se é possível criar snapshots e atualizar ambientes. Essa métrica é diferente da métrica de uso de disco do banco de dados, que mostra a quantidade de espaço em disco usada pelas instâncias do banco de dados Cloud SQL.
Conexões de banco de dados O número total de conexões ativas com o banco de dados e o limite total de conexões.

Diferença entre o tempo de análise do DAG e o tempo de execução do DAG

O painel de monitoramento de um ambiente exibe o tempo total necessário para analisar todos os DAGs no seu ambiente do Cloud Composer e o tempo médio necessário para executar um DAG.

Analisar um DAG e agendar tarefas de um DAG para execução são duas operações separadas executadas pelo agendador do Airflow.

Análise de DAG e agendamento de tarefas feito pelo agendador Airflow
Figura 3. Análise de DAG e agendamento de tarefas feito pelo agendador Airflow (clique para ampliar)

O tempo de análise do DAG é a quantidade de tempo que o Airflow Scheduler leva para ler um arquivo DAG e analisá-lo.

Antes que o agendador do Airflow possa agendar qualquer tarefa de um DAG, ele deve analisar o arquivo DAG para descobrir a estrutura do DAG e as tarefas definidas. Após a análise do arquivo DAG, o agendador pode começar a agendar tarefas a partir do DAG.

O tempo de execução do DAG é a soma de todos os tempos de execução de tarefas de um DAG.

Para ver quanto tempo leva para executar uma tarefa específica do Airflow a partir de um DAG, na interface web do Airflow , selecione um DAG e abra a aba Duração da tarefa . Esta aba exibe os tempos de execução da tarefa para o número especificado de últimas execuções do DAG.