AVD Monitoring: não olhe apenas CPU e memória

Steps and Tech
6 de jan.
4 min de leitura

Olá Pessoal!

Em muitos ambientes de Azure Virtual Desktop (AVD), o monitoramento ainda se resume ao básico: CPU, memória e disco das VMs. Esses números são importantes, claro — mas sozinhos não dizem quase nada sobre a experiência real do usuário.

Já vimos inúmeros casos em que:

CPU estava em 20%
Memória sobrando
Disco tranquilo

…e mesmo assim o usuário reclamava que “o sistema está impraticável”.

Em VDI, infraestrutura saudável não garante experiência boa. É, pode acreditar - é verdade!

Se você quer fazer troubleshooting de verdade e operar AVD como um real especialista precisa mudar o foco: sair da visão de máquina e ir para a visão de sessão e experiência e se colocar no lugar do usuário final.

É exatamente para isso que existe o Azure Virtual Desktop Insights, o painel oficial de observabilidade do AVD, baseado em Workbooks do Azure Monitor.

Abaixo estão algumas métricas que utilizamos em produção. Aquelas que explicam o que o usuário sente na ponta.

O que você realmente precisa monitorar no AVD

1. User Input Delay (Atraso de Entrada)

Essa é, sem exagero, a métrica mais honesta do AVD.

O Input Delay mede quanto tempo o sistema leva para responder a uma ação do usuário:

Clique de mouse
Digitação no teclado
Interações na interface

No AVD Insights, o contador Input Delay per Process envia dados a cada 30 segundos, registrando:

O pior caso da janela
A mediana
O p%95 (p95)

Se o usuário diz que “está tudo arrastado”, esse gráfico é o primeiro lugar onde você deve olhar. CPU baixa não significa nada se o input delay estiver alto.

2. Time to Connect (tempo e fases do logon)

Saber que o usuário conseguiu logar é o mínimo.

O que importa é quanto tempo isso levou e onde esse tempo foi gasto.

O AVD Insights quebra o Time to Connect em duas grandes fases:

Conexão: roteamento, gateway e rede
Logon: autenticação e carregamento da sessão no host

E é na fase de logon que mora o ouro. Ela é subdividida em quatro métricas críticas:

Profile
Tempo gasto carregando o perfil do usuário.

FSLogix (Frxsvc)
Quanto tempo o serviço do FSLogix levou para montar o VHD/VHDX.

Perfis gigantes ou file shares lentos aparecem claramente aqui.
GPOs
Tempo de aplicação das Políticas de Grupo.
Picos aqui normalmente indicam GPO demais, GPO pesada ou DC distante.
Shell Start
Tempo para iniciar o explorer.exe (a interface do Windows).

Isso acaba com o mito do “logon lento misterioso”. O dado mostra exatamente onde está o gargalo.

3. Latência de rede (Round-Trip Time – RTT)

O RTT mede o tempo de ida e volta entre o usuário final e a região do Azure onde o session host está rodando.

Como regra prática:

RTT abaixo de 150 ms → experiência aceitável
Acima disso → o usuário começa a sentir atraso perceptível

Monitorar RTT ajuda a responder rapidamente aquela pergunta clássica:

“O problema está no Azure ou na internet do usuário?”

Em muitos casos, o vilão é Wi‑Fi ruim, VPN instável ou rota internacional e não o host pool. Ai também vem um bom ponto relacionado a telemetria de dados!

4. Diagnóstico de falhas (origem e tipo de erro)

Quando uma conexão falha, o AVD não deixa você no escuro desde que você saiba onde olhar...

Os logs de diagnóstico indicam onde a falha ocorreu, classificando a origem (Source):

Client – problema no cliente do usuário
RDGateway – camada de tráfego de rede
RDBroker – orquestração da sessão
RDStack – agente instalado na VM

Além disso, existe a flag ServiceError:

ServiceError = TRUE → falha no backend gerenciado pela Microsoft
ServiceError = FALSE → problema do seu lado (VM, rede, identidade, imagem)

Essa simples distinção economiza horas de troubleshooting na camada errada.

5. Operações de Autoscale

Se você usa Autoscale nativo do AVD (e deveria), precisa monitorar se ele está funcionando de verdade.

No Log Analytics, a tabela WVDAutoscaleEvaluationPooled mostra:

Tentativas de ligar/desligar VMs
Logoffs forçados
Decisões tomadas pelo mecanismo de escala

O campo ScalingReasonMessage explica por que uma VM não foi ligada mesmo com pico de usuários e informações essenciais quando alguém reclama de falta de capacidade.

Exemplo do Insights do Azure Virtual Desktop:

Ir para Azure Portal > Azure Virtual Desktop > Monitoramento > Insights

Interface de gerenciamento de host mostrando "AVD1" com 1 host, 0 usuários e capacidade de 0%. Resumo à esquerda, gráfico à direita.

Tabela de monitoramento VDI

Área	Por que importa...	Pergunta que responde...
Input Delay	Mede o “lag” real percebido pelo usuário	“O ERP está lento ou é só impressão?”
Time to Connect	Expõe gargalos ocultos no logon	“É FSLogix, GPO ou rede?”
RTT	Valida a saúde da conexão do usuário	“É o host ou o Wi‑Fi da casa dele?”
Origem do erro	Direciona o troubleshooting corretamente	“É problema da Microsoft ou meu?”
Autoscale	Evita falta de capacidade no horário de pico	“Por que novas VMs não subiram?”

Checklist final de telemetria

Antes de confiar nos dados, valide:

O AVD Insights usa um Log Analytics Workspace dedicado aos session hosts
Contadores como User Input Delay, Terminal Services e RemoteFX Network estão habilitados
Diagnostic Settings dos Host Pools e Workspaces estão coletando Connections, Errors, Checkpoints e Management
O Azure Monitor Agent está instalado e enviando eventos corretamente