Estado persistente y crash recovery

Un agente 24/7 no es fiable porque nunca falla. Es fiable porque puede caer, arrancar de nuevo y saber qué estaba haciendo sin improvisar.

Objetivos de aprendizaje
  • Separar memoria de conversación, estado de tarea y conocimiento duradero.
  • Usar checkpoints para reanudar flujos y auditar decisiones.
  • Saber cuándo mirar Temporal o durable execution en procesos largos.
En cristiano: crash recovery. Es la capacidad de continuar de forma controlada después de un reinicio, caída de worker o fallo de herramienta.
Terminal
capas_estado:
  hot:
    uso: paso actual
    ejemplo: mensajes recientes
  warm:
    uso: tarea en curso
    ejemplo: active_tasks, checkpoint, tool_outputs resumidos
  cold:
    uso: memoria duradera
    ejemplo: preferencias, hechos validados, auditoria

boot:
  1: cargar active_tasks
  2: detectar tareas running antiguas
  3: reconciliar tool_executions
  4: pedir aprobacion si hay duda
  5: reanudar o cerrar con evidencia
Idea clave. LangGraph documenta checkpointers para persistir el estado del grafo por hilo. Temporal aborda otra capa: ejecución duradera de procesos que deben sobrevivir a caídas y continuar hasta completarse.
Cuidado. Checkpoint no significa supervisión automática. Si un worker muere, necesitas algo externo que lo detecte: monitor, cron, supervisor, cola o plataforma de durable execution.
Comprueba que funciona. Crea un archivo `active-tasks.md` o una tabla equivalente. Debe responder: tarea, dueño, estado, último paso, próxima acción, riesgo y cómo reanudar.
Guardar y reabrir el proyecto.
Estado persistente no es memoria infinita. Es continuidad mínima, verificable y recuperable.