Observabilidad y Estado Vivo

Sistema de monitorización y snapshots vivos del AI-LAB.

El AI-LAB mantiene un sistema de observabilidad continua para conocer en tiempo real:

  • estado GPU
  • modelos activos
  • salud de nodos
  • servicios Docker
  • runtime IA
  • snapshots operativos

Permitir:

  • monitorización viva
  • failover automático
  • detección de errores
  • dashboards realtime
  • reasoning contextual

ComponenteFunción
live_state.pyActualización runtime
system_state.pyRecolección estado
system_snapshot.jsonSnapshot persistente
Astro DashboardVisualización
Router APIEstado IA
GPU monitorTelemetría GPU

graph TD

A[GPU Nodes]

A --> B[live_state.py]

B --> C[system_state.py]

C --> D[system_snapshot.json]

D --> E[Astro Dashboard]

D --> F[Router Cognitivo]

F --> G[Inferencia]