No dia a dia de um Data Center, existem problemas que não aparecem nos dashboards de “Health” do APIC. Um dos casos mais intrigantes que resolvi recentemente envolveu um cluster Hyper-V, o protocolo COOP e um Bridge Domain inteiro sendo inundado por tráfego desnecessário.
Neste artigo, vamos dissecar como a configuração de rede de um Hypervisor pode “enganar” o Fabric ACI e ativar mecanismos de proteção que, ironicamente, acabam gerando lentidão generalizada.
O Sintoma: O “Silêncio” dos Inocentes
O chamado chegou como muitos outros: “A rede está lenta e alguns servidores perderam conectividade aleatoriamente”.
Ao analisar o Fabric, o cenário era confuso:
- O status do APIC estava verde (Healthy).
- Não havia alarmes de Loop (STP) ou quedas de interface.
- Porém, via Wireshark, notamos um volume absurdo de Unknown Unicast Flooding. O ACI estava replicando pacotes para todas as portas do Bridge Domain (BD) na tentativa de encontrar destinos que deveriam ser conhecidos.
A Investigação: Entra em cena o Endpoint Dampening
Para entender o que aconteceu, precisamos falar sobre o COOP (Council of Oracle Protocol). Ele é o “oráculo” do ACI que reside nos Spines e mapeia onde cada MAC e IP está localizado.
Quando um host se move muito rápido entre portas (MAC Flapping), o ACI ativa o Endpoint Dampening. É um mecanismo de defesa: para não estressar o Control Plane com atualizações infinitas, o Fabric “congela” aquele registro.
No meu caso, ao rodar comandos de CLI nos Leafs, identifiquei que vários MACs vindos do cluster Hyper-V estavam no estado Frozen.
Por que o Hyper-V causou isso?
O culpado era o Dynamic Teaming do Hyper-V. Nesse modo, o Hypervisor tenta balancear a carga movendo os fluxos de rede entre as placas físicas de forma agressiva. Para o ACI, parecia que as máquinas virtuais estavam “saltando” de uma porta para outra em milissegundos.
O COOP interpretou isso como uma instabilidade ou ataque e aplicou o “gelo” (Dampening) nos Endpoints. Com o registro congelado no Spine, o tráfego destinado a essas VMs deixava de ser roteado de forma eficiente e passava a ser inundado (Flooding) no BD.
A Solução: Estabilidade sobre Dinamismo
Para resolver, a estratégia foi alinhar a arquitetura de rede do host com a inteligência do Fabric:
- Ajuste no Hyper-V: Alteramos o modo de Teaming de Dynamic para Switch Independent (com configuração de porta estática no lado do ACI, se necessário) ou garantimos que o LACP estivesse devidamente configurado e estável.
- Limpeza do COOP: Foi necessário limpar os registros “congelados” para que o Spine voltasse a aprender as adjacências corretamente.
- Resultado: O tráfego Unknown Unicast desapareceu instantaneamente e a latência normalizou.
Lições Aprendidas
- O ACI é sensível à movimentação: O que o Windows enxerga como “otimização de fluxo”, o ACI pode enxergar como instabilidade de rede.
- Confie nos Logs, não apenas nos Dashboards: O estado “Frozen” de um Endpoint é um evento de log crucial que muitas vezes passa batido no dashboard principal do APIC.
- Padronização é tudo: A integração VMM (Virtual Machine Manager) ajuda a evitar esses problemas, pois o APIC passa a “conversar” com o Hypervisor e entender essas movimentações.
Gostou deste War Story? Se você quer ver como identificar esses MACs congelados via CLI e como configurar o Fabric para evitar esse comportamento, confira o vídeo completo lá no meu canal Cisco DC ACI.