Seu servidor colapsa em 2 segundos. Seu monitoramento detecta em 100. Esse gap é onde sistemas morrem — e o HOSA vive.
memory.high em t=2s. Nenhum processo morto.Memory leak começa no payment-service. Taxa: ~50MB/s.
Prometheus fez último scrape 8s atrás. Próximo scrape em 7s. Dados mostram: "saudável."
Distância de Mahalanobis cruza o limiar de vigilância. Taxa de amostragem aumentada de 100ms para 10ms.
Prometheus: nenhum scrape neste intervalo. Zero consciência.
Contribuidor dominante identificado: /kubepods/pod-payment-service-7b4f.
Ação: memory.high reduzido de 2G → 1.6G. Webhook disparado.
Prometheus: próximo scrape em 5s. Ainda mostrando dados obsoletos de t=-8s.
O HOSA detectou e conteve a anomalia antes que qualquer sistema de monitoramento externo pudesse coletar seu primeiro ponto de dado pós-leak.
Derivada desacelerando — contenção está funcionando. Nenhuma escalação necessária.
Prometheus: faz scrape agora. Vê mem=1.47GB. Regra diz >1.8GB por 1m. Resultado: OK (!)
Memória em 74% — platô atingido. Derivada próxima de zero. Sistema degradado mas funcional. Todas as transações preservadas. Nenhum processo morto.
payment-service morto no meio da transação. Dados corrompidos. CrashLoopBackOff começa.
Clientes recebem erros 502.
Alerta dispara 60 segundos após o primeiro crash. A condição for 1m é finalmente satisfeita.
Engenheiro de plantão notificado. Postmortem começa.
Como o arco reflexo humano — sua medula espinhal retrai sua mão do fogo em milissegundos, depois notifica seu cérebro. O HOSA faz o mesmo para seus servidores.
Sem thresholds estáticos. O HOSA aprende o perfil comportamental do seu nó — como CPU, memória, I/O e rede se correlacionam — e detecta desvios usando a Distância de Mahalanobis. Ele vê padrões que alertas por métrica individual não conseguem.
Métricas coletadas via probes eBPF conectadas diretamente a tracepoints do kernel. Sem polling, sem scraping, sem agentes-chamando-agentes. Dados fluem por ring buffers com latência de microssegundos.
O HOSA não mede apenas onde você está — ele calcula velocidade e aceleração do desvio. Ele detecta que você está caminhando para o colapso, não apenas que chegou nele.
Seis níveis de resposta, da observação passiva à quarentena autônoma. Proporcional à severidade. Sem chaves binárias de kill. Throttle primeiro, contenção depois, isolamento apenas como último recurso.
Sem TSDB, sem message broker, sem API cloud necessária para sua função primária. A comunicação com orquestradores é oportunística — usada quando disponível, nunca necessária.
Toda ação autônoma é registrada com sua justificativa matemática — valor DM, derivada, limiar cruzado, cgroup alvo, ação tomada. Transparência total. Sem caixas pretas.
Inspirado na resposta biológica a ameaças. Força proporcional — da observação silenciosa ao isolamento de rede.
| Nível | Nome | Ação | Reversibilidade |
|---|---|---|---|
| 0 | Homeostase | Nenhuma. Suprime telemetria redundante. Apenas heartbeat. | — |
| 1 | Vigilância | Aumenta taxa de amostragem. Log local. Sem intervenção. | Automática |
| 2 | Contenção Suave | renice processos não essenciais. Notificação via webhook. |
Automática |
| 3 | Contenção Ativa | Throttling de CPU/memória via cgroups. Load shedding parcial via XDP. | Auto c/ histerese |
| 4 | Contenção Severa | Throttling agressivo. Bloqueia tráfego inbound exceto healthchecks. Congela cgroups não críticos. | Recuperação sustentada |
| 5 | Quarentena | Isolamento de rede. Congela processos não essenciais. Modo de recuperação ciente do ambiente. | Manual |
Três camadas — sensorial (eBPF), córtex (matemática), motora (cgroups/XDP) — operando em loop contínuo com transições kernel↔user em microssegundos.
Usada quando disponível. Nunca necessária.
Estamos construindo ativamente a primeira release pública.
Dê uma estrela no repositório para ser notificado quando sair.
O HOSA está atualmente em desenvolvimento alpha. Instruções de instalação, binários pré-compilados e guias de início rápido estarão disponíveis aqui assim que a primeira release pública estiver pronta.
Acompanhar no GitHubDos conceitos aos detalhes de implementação.
Resiliência Endógena, o Intervalo Letal e por que autonomia local importa.
O ciclo perceptivo-motor, calibração warm-up e decisões de design do sistema.
Distância de Mahalanobis, atualizações Welford, EWMA, derivadas e taxonomia de regimes.
Seis níveis graduados, atuação via cgroups, load shedding XDP, modos de quarentena.
Parâmetros, safelists, detecção de ambiente e guia de tunning.
Fundamento acadêmico completo — 52 páginas cobrindo teoria, taxonomia e plano de validação.