Un asistente de voz en español que funciona dentro del navegador: transcribe con Whisper, razona con un modelo de lenguaje y responde con voz neural Piper, todo orientado a baja latencia. El reconocimiento y la síntesis corren en local, lo que lo hace interesante para entornos donde la privacidad del audio importa.
EVA HUD es un prototipo de asistente de voz conversacional en español que funciona casi por completo en local: el reconocimiento de voz corre dentro del navegador y un backend ligero en PHP orquesta el resto. Combina transcripción con Whisper (ejecutado en el propio navegador con transformers.js), un cerebro basado en el CLI de Claude Code reutilizando la sesión OAuth del usuario (sin claves de API) y síntesis de voz neural en español con varios motores intercambiables: Piper (offline, local), Edge Neural TTS (gratuito, sin clave, requiere internet) y la voz del sistema como respaldo. Todo se presenta sobre una interfaz tipo HUD con un núcleo de partículas en canvas que reacciona en tiempo real a la energía del audio de la voz.
El problema que aborda es demostrar que se puede construir una experiencia de voz completa (escuchar, razonar, hablar y actuar sobre la interfaz) sin depender de servicios SaaS de voz de pago ni de API keys: el reconocimiento de voz corre en el cliente sin enviar audio fuera, el TTS puede ser 100% offline con Piper, y el razonamiento se apoya en una suscripción Claude existente reutilizando el CLI ya autenticado. Incorpora activación por nombre ("Eva") con tolerancia fonética, un mecanismo de acciones de interfaz validadas (function calling sobre una whitelist) y una capacidad de visión que envía un fotograma de la webcam al modelo.
Es explícitamente un prototipo orientado a Windows con Laragon/PHP, pensado para un único usuario (el servidor PHP integrado es monohilo) y como pieza de demostración técnica. No es un producto cerrado: requiere tener el CLI de Claude instalado y autenticado, e instalar Piper o disponer de Python con edge-tts para la voz neural. Su valor está en mostrar una arquitectura de voz privada, modular y de bajo coste, con degradación elegante (varios motores de voz y un modo de reglas offline de respaldo).
Transcribe el habla en español con Whisper ejecutado localmente (transformers.js), sin enviar audio a servidores. Modelo elegible entre small (por defecto), base y tiny según precisión o velocidad.
Calibra el ruido ambiente al arrancar la escucha y decide automáticamente cuándo has terminado de hablar mediante umbrales de energía dinámicos, con pre-roll para no perder el inicio de cada frase. Incluye modo de pulsar-para-hablar manteniendo un botón.
Responde solo cuando la nombras ('Eva') al inicio de la frase, reconociendo las variantes que produce el reconocedor (eva, heva, eba, ewa, ava, eua), y mantiene una ventana de conversación de seguimiento de 12 segundos sin tener que repetir el nombre.
Usa el CLI de Claude Code ya autenticado, sin claves de API, con elección de modelo (Haiku por defecto, Sonnet u Opus). Aísla la ejecución para arrancar más rápido y fija un tope de gasto por turno. Incluye un modo de reglas offline para hora, fecha, cálculos y comandos básicos cuando no hay IA.
Empieza a hablar mientras el modelo sigue generando, gracias a Server-Sent Events y una cola de TTS por frases con prefetch, evitando esperas y cortes en respuestas largas.
Síntesis con Edge Neural TTS (gratuito, sin clave, requiere internet; voces de España, México y Argentina) o Piper (offline, voces .onnx españolas), con fallback automático de Edge a Piper y de ambos a la voz del sistema. Voz, velocidad y hablante configurables en panel.
El modelo puede ejecutar solo acciones de una lista validada en el HUD: cambiar el color del núcleo, cambiar de voz, ajustar velocidad o volumen, limpiar pantalla, dejar de escuchar o repetir la última respuesta. Cualquier acción fuera de la whitelist se descarta.
Captura un fotograma de la cámara (640x480) y lo adjunta al siguiente turno como imagen temporal para que Claude lo describa o responda preguntas sobre él, con la herramienta Read acotada a la carpeta de esa imagen, que se elimina tras el turno.
Núcleo de partículas, anillos segmentados y medidor de señal en canvas que reaccionan a la energía real del audio mediante un analizador de frecuencia, dando feedback visual de los estados de escucha, proceso y habla.
Un cerebro que envuelve a un modelo de lenguaje con memoria episódica y semántica, estado emocional calculado (modelo PAD), drives de motivación y consolidación. La emoción es estado, no atrezo de prompt.
Ver prototipo →
Cara paramétrica que interpola entre estados emocionales en tiempo real con SVG, sigue al usuario y reacciona. Una capa de interfaz para chatbots, kioscos o asistentes.
Ver prototipo →Si algo de esto encaja con un problema real de tu negocio, lo convertimos en una solución mantenible y con control total.
Hablemos de tu proyectoÚltima actualización: 03/07/2026
Recopilamos datos personales únicamente cuando el usuario nos los facilita voluntariamente a través de:
| Dato | Obligatorio | Finalidad |
|---|---|---|
| Nombre | Sí | Identificar al remitente y personalizar la respuesta |
| Empresa | No | Contextualizar la consulta profesional |
| Sí | Responder a la consulta y enviar confirmación de recepción | |
| Servicio de interés | No | Derivar la consulta al área adecuada |
| Mensaje | No | Comprender la necesidad del usuario |
Correo de confirmación: al enviar el formulario de contacto, se envía automáticamente un email de confirmación a la dirección indicada por el usuario, como acuse de recibo de la solicitud.
| Dato | Obligatorio | Finalidad |
|---|---|---|
| Nombre | Sí | Mostrar la autoría del comentario publicado |
| Sí | Verificación interna y notificaciones (no se publica) | |
| Contenido del comentario | Sí | Publicación en la sección de comentarios del artículo |
Los comentarios pueden requerir aprobación del moderador antes de su publicación.
| Tipo de dato | Plazo | Criterio |
|---|---|---|
| Formulario de contacto | 12 meses | Desde la última comunicación |
| Comentarios del blog | Indefinido | Mientras permanezca publicado |
| Datos de clientes | 5-6 años | Obligaciones fiscales |
| Cookies | Variable | Según tipo de cookie |
Transcurridos los plazos, los datos serán eliminados o anonimizados.
De acuerdo con el RGPD y la LOPDGDD, tienes derecho a:
Para ejercer estos derechos: info@joanmedina.es
Puedes reclamar ante la AEPD en www.aepd.es.
En 30 minutos analizo tu empresa y te digo con claridad dónde estás perdiendo tiempo, qué automatizaría primero y qué evitaría. Sin compromiso, sin letra pequeña.
+10 años de experiencia · +200 procesos automatizados
Diagnóstico gratuito — Detecta dónde se pierden horas y qué automatización tiene más retorno
Pedir diagnóstico