Autor: xiyu
¿Quieres usar Claude Opus 4.6 pero no quieres que la factura de fin de mes explote? Este artículo te ayuda a reducir entre un 60-85% los costos.
¿Crees que los tokens son solo “lo que dices + lo que responde la IA”? La realidad es mucho más que eso.
Costos ocultos en cada conversación:
Un simple “¿Qué tiempo hace hoy?” en realidad consume entre 8000-15000 tokens de entrada. Usando Opus, solo en contexto se gastan $0.12-0.22.
Cron aún más agresivo: cada disparo = nueva conversación = reinyección de todo el contexto. Un cron que corre cada 15 minutos, 96 veces al día, con Opus cuesta unos $10-20 diarios.
Heartbeat funciona igual: esencialmente llamadas de diálogo, cuanto más corto el intervalo, más dinero se gasta.
El primer gran truco para ahorrar dinero, el más efectivo. Sonnet cuesta aproximadamente 1/5 de Opus, y cubre el 80% de tareas diarias.
Prompt:
Por favor, cambia el modelo predeterminado de OpenClaw a Claude Sonnet,
y usa Opus solo para análisis profundos o creación.
Necesidades específicas:
1) Configurar Sonnet como modelo predeterminado
2) Las tareas programadas (cron) usarán Sonnet por defecto
3) Solo tareas de escritura o análisis profundo usarán explícitamente Opus
**Escenarios de Opus:** escritura de textos largos, código complejo, razonamiento en múltiples pasos, tareas creativas
**Escenarios de Sonnet:** charlas cotidianas, preguntas simples, revisiones cron, heartbeat, manejo de archivos, traducciones
**Prueba práctica:** tras cambiar, el costo mensual se reduce un 65%, con una experiencia casi igual.
Cada llamada puede tener un “ruido de fondo” de 3000-14000 tokens. Optimizar la inyección de archivos es la mejor relación costo-beneficio.
Prompt:
Ayúdame a simplificar los archivos de contexto de OpenClaw para ahorrar tokens.
Incluye: 1) eliminar partes innecesarias de AGENTS.md (reglas de chat grupal, TTS, funciones no usadas), comprimir a menos de 800 tokens
2) Resumir SOUL.md en puntos clave, entre 300-500 tokens
3) Limpiar MEMORY.md de información obsoleta, mantenerlo dentro de 2000 tokens
4) Revisar la configuración de workspaceFiles, eliminar archivos de inyección innecesarios
Regla práctica: reducir 1000 tokens en inyección, con 100 llamadas diarias a Opus, ahorras aproximadamente $45 al mes.
Prompt:
Ayúdame a optimizar las tareas cron de OpenClaw para ahorrar tokens.
Por favor:
1) Lista todas las tareas cron, su frecuencia y modelo
2) Downgrade de tareas no creativas a Sonnet
3) Combina tareas en el mismo período (por ejemplo, varias revisiones en una sola)
4) Reduce frecuencias innecesarias (revisión del sistema de cada 10 a 30 minutos, revisión de versiones de 3 a 1 vez por día)
5) Configura delivery para notificaciones bajo demanda, sin enviar mensajes en condiciones normales
Principio clave: no es mejor cuanto más frecuente, muchas "necesidades en tiempo real" son falsas. Combinar 5 revisiones independientes en una sola llamada ahorra aproximadamente un 75% en costos de inyección de contexto.
Prompt:
Ayúdame a optimizar la configuración de Heartbeat en OpenClaw:
1) Intervalo de trabajo entre 45-60 minutos
2) Periodo de silencio nocturno de 23:00 a 08:00
3) Simplifica HEARTBEAT.md al mínimo
4) Agrupa tareas dispersas en ejecuciones en lote en el heartbeat
Al buscar información, el agente por defecto “lee todo el texto” — un archivo de 500 líneas consume entre 3000-5000 tokens, pero solo necesita 10 líneas. El 90% de los tokens de entrada se desperdician.
qmd es una herramienta de búsqueda semántica local, que crea un índice completo + vectorial, permitiendo que el agente localice con precisión los párrafos relevantes en lugar de leer todo el archivo. Todo se calcula localmente, sin costo API.
Usado junto con mq (Mini Query): previsualización de estructura, extracción precisa de párrafos, búsqueda por palabras clave — solo lee las 10-30 líneas necesarias en cada consulta.
Prompt:
Configura qmd para la búsqueda del conocimiento y ahorrar tokens.
URL de Github: https://github.com/tobi/qmd
Requisitos:
1) Instalar qmd
2) Crear índice en el directorio de trabajo
3) Añadir reglas de búsqueda en AGENTS.md, forzando al agente a usar qmd/mq antes que leer todo
4) Programar actualización periódica del índice
Efecto comprobado: cada consulta de información pasa de 15000 a 1500 tokens, una reducción del 90%.
Diferencia con memorySearch: memorySearch "recuerda" (MEMORY.md), qmd "consulta" (base de conocimientos personalizada), sin afectar mutuamente.
Prompt:
Configura memorySearch en OpenClaw.
Si mis archivos de memoria son pocos (unas decenas de md),
¿Es mejor usar embeddings locales o Voyage AI?
Por favor, explica costos y calidad de búsqueda de cada uno.
**Respuesta sencilla:** para pocos archivos, embeddings locales (sin costo) son suficientes; si necesitas multilingüe o muchos archivos, usa Voyage AI (cada cuenta con 2 mil millones de tokens gratis).
Prompt:
Ayúdame a optimizar toda la configuración de OpenClaw para maximizar el ahorro de tokens, siguiendo esta lista:
- Cambiar modelo predeterminado a Sonnet, usar Opus solo para tareas de creación/análisis
- Simplificar AGENTS.md / SOUL.md / MEMORY.md
- Reducir tareas cron a Sonnet + combinar + reducir frecuencia
- Intervalo de Heartbeat a 45 minutos + silencio nocturno
- Configurar qmd para búsqueda precisa en lugar de lectura completa
- Mantener solo archivos necesarios en workspaceFiles
- Limpiar archivos de memoria periódicamente, MEMORY.md con menos de 2000 tokens
### Beneficios de una sola configuración:
1. Capas del modelo — Sonnet para tareas diarias, Opus para casos clave, ahorro del 60-80%
2. Contexto más liviano — archivos simplificados + qmd para búsqueda precisa, ahorro del 30-90% en tokens de entrada
3. Menos llamadas — combinar cron, extender intervalos de heartbeat, activar silencio nocturno
Sonnet 4 ya es muy potente, para tareas diarias no notarás diferencia. Cuando realmente necesites Opus, simplemente cámbialo.
*Basado en experiencia práctica con sistemas multi-agente, estimaciones desensibilizadas.*