MiniMax CLI + Edge TTS: generación de imágenes, audio y música desde tu servidor (y desde Hermes)

Si leíste mi artículo anterior, ya sabes que tengo Hermes Agent corriendo en mi Mac Mini con Arch Linux, conectado a Telegram y WhatsApp para tener un asistente de IA 24/7 desde cualquier lugar.

Pero Hermes puede hacer mucho más que solo chatear. Con el CLI oficial de MiniMax (mmx) y el TTS por Edge que viene configurado en Hermes, puedo generar imágenes, música, audios y hasta remixes directamente desde mi teléfono. Y todo se entrega por WhatsApp.

Vamos a ver cómo.

¿Qué es MiniMax y el CLI mmx?

MiniMax es una plataforma china de IA que ofrece modelos para generar imágenes, video, música, texto y voz. Su calidad es sorprendente — sobre todo en video (Hailuo) e imágenes (image-01).

Hace unos meses lanzaron un CLI oficial llamado mmx que te permite usar todos sus servicios directo desde la terminal. Sin navegador, sin APIs complicadas, sin WebUIs. Un solo comando y ya.

Y lo mejor: lo puedes invocar desde Hermes.

Instalación y autenticación

¿Tienes una cuenta en MiniMax? Entonces esto es todo lo que necesitas:

pip install mmx-cli
mmx auth login

O si prefieres el instalador directo:

curl -fsSL https://mmx-cli.minimax.ai/install.sh | bash
mmx auth login

El auth login abre un navegador para que autorices con tu cuenta de MiniMax. Una vez autenticado, ya tienes acceso a todo lo que ofrece el CLI sin tener que andar pegando API keys manualmente.

Para verificar:

mmx auth status
mmx quota show

¿Qué ofrece mmx CLI?

El CLI tiene 12 recursos diferentes. Te resumo los que más me han servido:

Comando	Para qué
`mmx image generate`	Generar imágenes con prompts
`mmx speech synthesize`	Texto a voz (TTS) con voces realistas
`mmx music generate`	Crear canciones desde cero
`mmx music cover`	Remix / cover de canciones existentes
`mmx music cover preprocess`	Extraer estructura y letra de un audio
`mmx vision describe`	Analizar imágenes y hacer preguntas sobre ellas
`mmx search query`	Búsqueda web integrada
`mmx video generate`	Generar videos (T2V, I2V, SEF)
`mmx text chat`	Chat con modelos MiniMax
`mmx file`	Subir/listar archivos
`mmx speech voices`	Listar voces disponibles

Cada comando tiene sus propias opciones — lo bueno es que el CLI tiene --help en cada nivel:

mmx image generate --help
mmx music cover --help

Generación de imágenes

Empecemos por lo más vistoso. mmx image generate es increíblemente sencillo:

mmx image generate \
  --prompt "Un atardecer en la playa, estilo acuarela, colores cálidos" \
  --aspect-ratio 16:9 \
  --out atardecer.jpg

Y el resultado en segundos:

Atardecer generado con MiniMax

Opciones interesantes

--prompt-optimizer — MiniMax mejora automáticamente tu prompt antes de generar. Ideal cuando no sabes cómo describir exactamente lo que quieres:

mmx image generate \
  --prompt "Un perro volando en un cohete" \
  --prompt-optimizer \
  --out perro_cohete.jpg

Perro volando en cohete con prompt-optimizer

--seed — Para reproducir exactamente el mismo resultado:

mmx image generate --prompt "Castillo medieval" --seed 42 --out castillo1.jpg
mmx image generate --prompt "Castillo medieval" --seed 42 --out castillo2.jpg
# 🎯 Misma imagen exacta

--n — Generar varias variantes a la vez:

mmx image generate --prompt "Logo minimalista" --n 4 --out-dir ./logos/

--subject-ref — Consistencia de personajes. Le pasas una foto de referencia y genera nuevas imágenes con la misma persona. Ideal para hacer comics o series de imágenes:

mmx image generate \
  --prompt "Un astronauta en Marte" \
  --subject-ref type=character,image=foto_persona.jpg \
  --out astronauta.jpg

Edge TTS: audio desde Hermes (gratis)

Antes de hablar de MiniMax para audio, hablemos de la opción gratuita que ya viene en Hermes: Edge TTS.

Edge TTS usa los servidores de Microsoft Edge para sintetizar voz humana. Sin API key, sin registro, sin costos. Solo lo configuras en Hermes y ya.

En mi configuración, el TTS está apuntando a la voz mexicana:

# ~/.hermes/config.yaml
tts:
  provider: edge
  edge:
    voice: es-MX-JorgeNeural

Y desde WhatsApp, solo le pido a Hermes un audio y lo genera al instante.

Ejemplo: saludo para Iveth

Una noche le pedí a Hermes que me pasara un saludo de buenas noches para mi esposa Iveth por WhatsApp. El prompt fue tan simple como:

“Pásame un saludo para mi esposa Iveth en audio… Usa el modelo de minimax y dale una reflexión para esta bonita noche”

Hermes tomó el text_to_speech tool, usó Edge TTS con la voz mexicana y me entregó el audio directamente por WhatsApp. El mensaje que generó fue algo como:

“Hola Iveth, te mando un saludo muy especial esta noche. Que tu corazón encuentre paz al cerrar los ojos, que cada estrella en el cielo te recuerde lo valiosa que eres…”

Y así, desde mi teléfono, sin abrir nada más que WhatsApp, le llegó un audio personalizado a mi esposa. Sin páginas web, sin apps extras, sin complicaciones.

Así se ve en la conversación:

Audio de saludo por WhatsApp

TTS con MiniMax (mmx speech)

Si quieres más voces y opciones, MiniMax tiene su propio TTS con mmx speech synthesize. Lo bueno es que ofrece 47 voces en español de distintos estilos:

mmx speech voices --language spanish

Algunas de las que más me gustaron:

Voz	Descripción
`Spanish_MaturePartner`	Voz masculina madura y cálida
`Spanish_CaptivatingStoryteller`	Narrador masculino cautivador
`Spanish_RomanticHusband`	Voz masculina romántica y emotiva
`Spanish_SereneWoman`	Voz femenina serena y relajante
`Spanish_ConfidentWoman`	Voz femenina clara y firme

Para usarlo:

mmx speech synthesize \
  --text "Hola, ¿cómo estás? Este es un audio generado con MiniMax" \
  --voice Spanish_MaturePartner \
  --out saludo.mp3

Y si quieres transmitir directo a un reproductor:

mmx speech synthesize \
  --text "Transmitiendo en vivo" \
  --voice Spanish_SereneWoman \
  --stream | mpv --no-terminal -

Música y remixes con mmx

Esto es de lo que más me ha volado la cabeza. mmx no solo genera imágenes y voz — también música.

Generar canciones desde cero

mmx music generate \
  --prompt "Indie folk, acústico, melancólico, guitarra y voz" \
  --lyrics-optimizer \
  --out cancion.mp3

El --lyrics-optimizer hace que MiniMax escriba la letra automáticamente basada en el prompt. También puedes pasar tu propia letra:

mmx music generate \
  --prompt "Pop bailable, upbeat" \
  --lyrics "[Verse] Esta es mi canción / La escribo con el corazón [Chorus]..." \
  --out mi_rola.mp3

Y para tracks instrumentales:

mmx music generate \
  --prompt "Cinematic orchestral, building tension" \
  --instrumental \
  --out bgm.mp3

Remixes y covers

Aquí está lo increíble: mmx music cover toma una canción existente y la reimagina en otro estilo. Mantiene la esencia melódica pero cambia instrumentos, ritmo, género y arreglos.

mmx music cover \
  --prompt "Progressive trance, melodic, style of Alex Morph, uplifting, modern club sound, driving bassline, lush pads" \
  --audio-file mi_cancion_original.mp3 \
  --out remix_alex_morph.mp3

El límite es 6 minutos por archivo, y acepta MP3, WAV y FLAC de hasta 50 MB.

Mi experimento: Tomé “Animacion” de Paul van Dyk (soundtrack de la película ZURDO), una rola de trance progresivo de 2014, y le pedí a mmx music cover que la reimaginara al estilo de Alex Morph (DJ de trance moderno). El resultado fue una versión con batería más potente, pads atmosféricos, arpegios modernos y un drop más energético — manteniendo la melodía original pero sonando completamente fresca.

MiniMax Vision: analizar imágenes

Otro recurso útil del CLI es mmx vision describe para analizar imágenes:

mmx vision describe --image foto.jpg

O puedes hacer preguntas específicas:

mmx vision describe \
  --image documento.png \
  --prompt "Extrae todo el texto de esta imagen"

Ideal cuando necesitas extraer texto de capturas, analizar gráficos o simplemente saber qué hay en una imagen.

Integración con Hermes

Aquí está lo que hace todo esto realmente útil: Hermes puede invocar mmx.

Cuando estoy en WhatsApp y le pido a Hermes que genere una imagen, él ejecuta mmx image generate en el servidor y me entrega el resultado por WhatsApp automáticamente. Sin que yo tenga que abrir una terminal, sin comandos complicados, sin subir archivos manualmente.

El flujo es:

📱 Yo: “Genera una imagen de…” por WhatsApp
🤖 Hermes: mmx image generate --prompt "..." --out /tmp/img.jpg
📤 Hermes: Envía la imagen por WhatsApp
📱 Yo: Veo el resultado en mi teléfono

Así se ve cuando Hermes me entrega una imagen generada con MiniMax directo por WhatsApp:

Imagen generada entregada por WhatsApp

Y lo mismo con el audio. Le pido un saludo, un poema, una reflexión — Hermes lo genera con Edge TTS o MiniMax y me lo manda como nota de voz.

TTS en Hermes

Hermes ya tiene MiniMax configurado como proveedor de TTS en su configuración, además de Edge:

# ~/.hermes/config.yaml (sección tts)
tts:
  provider: edge          # Por defecto usa Edge (gratis)
  edge:
    voice: es-MX-JorgeNeural
  minimax:                # También disponible
    model: speech-2.8-hd
    voice: Spanish_MaturePartner

Desde el chat de Hermes puedes cambiar entre ellos con:

/voice on       # Activa voz
/voice tts      # Siempre responde con audio
/voice off      # Solo texto

Ventajas de tener mmx CLI en tu servidor

A donde quiero llegar con todo esto es: tener mmx CLI en tu servidor, accesible desde Hermes, te da un estudio creativo completo en tu bolsillo.

📱 Todo desde WhatsApp — pides imágenes, audios, música, sin apps
🖼️ Sin suscripciones a Midjourney/DALL-E — MiniMax image-01 es excelente
🎵 Música original para tus proyectos — bandas sonoras, jingles, bgm
🗣️ Voces realistas para tus contenidos — narraciones, saludos, doblaje
🔄 Covers y remixes — versiones frescas de canciones que ya te sabes
🤖 Integrado con tu agente — Hermes orquesta todo, tú solo hablas

En el próximo post voy a explorar más a fondo la generación de video con Hailuo y cómo combinar imagen + audio + video en un solo flujo desde WhatsApp.

Pero eso es para otro día.

Por ahora, ya sabes: con un servidor, un CLI y Hermes, tienes un estudio creativo portátil que cabe en tu bolsillo. 🌀

ia hermes minimax tts whatsapp archlinux servidor audio imagen