Cursos/Agentes y automatización/Crash recovery

Estado persistente y crash recovery

Un agente 24/7 no es fiable porque nunca falla. Es fiable porque puede caer, arrancar de nuevo y saber qué estaba haciendo sin improvisar.

Objetivos de aprendizaje

Separar memoria de conversación, estado de tarea y conocimiento duradero.
Usar checkpoints para reanudar flujos y auditar decisiones.
Saber cuándo mirar Temporal o durable execution en procesos largos.

En cristiano: crash recovery. Es la capacidad de continuar de forma controlada después de un reinicio, caída de worker o fallo de herramienta.

Terminal

capas_estado:
  hot:
    uso: paso actual
    ejemplo: mensajes recientes
  warm:
    uso: tarea en curso
    ejemplo: active_tasks, checkpoint, tool_outputs resumidos
  cold:
    uso: memoria duradera
    ejemplo: preferencias, hechos validados, auditoria

boot:
  1: cargar active_tasks
  2: detectar tareas running antiguas
  3: reconciliar tool_executions
  4: pedir aprobacion si hay duda
  5: reanudar o cerrar con evidencia

Idea clave. LangGraph documenta checkpointers para persistir el estado del grafo por hilo. Temporal aborda otra capa: ejecución duradera de procesos que deben sobrevivir a caídas y continuar hasta completarse.

Cuidado. Checkpoint no significa supervisión automática. Si un worker muere, necesitas algo externo que lo detecte: monitor, cron, supervisor, cola o plataforma de durable execution.

Comprueba que funciona. Crea un archivo `active-tasks.md` o una tabla equivalente. Debe responder: tarea, dueño, estado, último paso, próxima acción, riesgo y cómo reanudar.

Guardar y reabrir el proyecto.

Estado persistente no es memoria infinita. Es continuidad mínima, verificable y recuperable.

← Retries Loops y costes →