2026-05-10

Construyendo un runtime IA distribuido

Cómo AI-LAB terminó usando GPUs remotas, routing OpenAI-compatible y observabilidad.

Uno de los problemas más interesantes de AI-LAB apareció muy pronto:

¿Cómo usar varios nodos GPU como una única plataforma?

La solución terminó convirtiéndose en un pequeño runtime distribuido.

El problema inicial

Al principio cada LM Studio era independiente.

Cada nodo tenía su IP, sus modelos, sus puertos y su estado.

Eso obligaba a cambiar endpoints manualmente, recordar nodos y gestionar caídas.

No era operativo.

Se creó un Router API compatible con OpenAI.

/v1/chat/completions