Estado persistente y crash recovery
Un agente 24/7 no es fiable porque nunca falla. Es fiable porque puede caer, arrancar de nuevo y saber qué estaba haciendo sin improvisar.
Objetivos de aprendizaje
- Separar memoria de conversación, estado de tarea y conocimiento duradero.
- Usar checkpoints para reanudar flujos y auditar decisiones.
- Saber cuándo mirar Temporal o durable execution en procesos largos.
En cristiano: crash recovery. Es la capacidad de continuar de forma controlada después de un reinicio, caída de worker o fallo de herramienta.
Terminal
capas_estado:
hot:
uso: paso actual
ejemplo: mensajes recientes
warm:
uso: tarea en curso
ejemplo: active_tasks, checkpoint, tool_outputs resumidos
cold:
uso: memoria duradera
ejemplo: preferencias, hechos validados, auditoria
boot:
1: cargar active_tasks
2: detectar tareas running antiguas
3: reconciliar tool_executions
4: pedir aprobacion si hay duda
5: reanudar o cerrar con evidencia Idea clave. LangGraph documenta checkpointers para persistir el estado del grafo por hilo. Temporal aborda otra capa: ejecución duradera de procesos que deben sobrevivir a caídas y continuar hasta completarse.
Cuidado. Checkpoint no significa supervisión automática. Si un worker muere, necesitas algo externo que lo detecte: monitor, cron, supervisor, cola o plataforma de durable execution.
Comprueba que funciona. Crea un archivo `active-tasks.md` o una tabla equivalente. Debe responder: tarea, dueño, estado, último paso, próxima acción, riesgo y cómo reanudar.
Guardar y reabrir el proyecto.
Estado persistente no es memoria infinita. Es continuidad mínima, verificable y recuperable.