Domotique et commandes vocales en local 🎙️ HA Voice PE tient ses promesses avec Speech-to-phrase !

En bref


Origine	Offert par Domadoo pour test
Liens	Voice PE sur Domadoo · Speech-to-Phrase — Voice chapter 9 · Manuel Voice PE

✅ Les +	❌ Les −
100% local, zéro cloud	Jeu de commandes limité par conception
Faible latence avec Speech-to-phrase	Moins expressif qu’un modèle de langage
Fonctionne sur matériel modeste	Capture vocale limitée à distance
Pas de dépendance Google/Amazon	Toujours moins fluide que Google Nest Audio

Verdict : Les commandes vocales locales ne sont plus un espoir — elles fonctionnent. Speech-to-phrase change tout sur la latence et la fiabilité. Le prix à payer, c’est un jeu de phrases fixes : pas de langage naturel libre. Mais pour contrôler sa domotique, c’est amplement suffisant.

C’est ma deuxième vidéo sur le Voice PE

La première, je l’avais faite il y a quelques semaines. J’avais promis de revenir s’il y avait du neuf. Du neuf, il y en a : l’équipe Home Assistant a présenté Speech-to-phrase, une nouvelle approche de la reconnaissance vocale locale. C’est l’objet de cette vidéo.

Pour rappel sur le produit lui-même : le Voice PE (Preview Edition) est une enceinte avec des microphones, une architecture ESP à l’intérieur, et quasiment aucun traitement embarqué à part la gestion du mot-clé de réveil (“ok Nabou”). Tout le reste — la reconnaissance vocale, l’interprétation, la réponse — se fait sur votre installation Home Assistant. C’est un satellite de commande vocale, pas un produit autonome.

J’ai des Google Home et des Nest Audio dans mon salon, visibles dans la vidéo. Je les utilise encore. L’enjeu avec le Voice PE, c’est de savoir si un jour il peut les remplacer — en gardant le traitement entièrement chez moi.

La pipeline vocale dans Home Assistant

Quand vous donnez une commande vocale, il se passe plusieurs étapes distinctes :

Détection du mot-clé (Wake Word) : traitée directement sur le Voice PE, sans envoyer quoi que ce soit au réseau. C’est rapide, léger, continu.
Speech-to-Text (STT) : le fichier audio capturé est transformé en texte. C’est là que différentes solutions entrent en jeu — Vosk, Whisper, ou maintenant Speech-to-phrase.
Agent conversationnel : le texte est interprété pour en déduire une action. Home Assistant natif, Google Generative AI, ou un LLM local selon votre config.
Text-to-Speech (TTS) : la réponse est générée en audio et émise par l’enceinte. Piper ou Google Translate selon la config.

Tout ça, vous le configurez vous-même dans Home Assistant, dans la section Assistants vocaux. Vous pouvez mixer les briques : local pour certaines, cloud pour d’autres, en fonction de vos besoins et de votre matériel.

Speech-to-phrase : la vraie nouveauté

Annoncé dans le “Voice Chapter 9” du blog Home Assistant (13 février 2025).

L’idée est différente des approches classiques. Plutôt que de tenter de comprendre du langage naturel libre — ce qui nécessite un LLM ou un modèle lourd —, Speech-to-phrase fonctionne avec un jeu de phrases précâblées. Home Assistant connaît vos entités (la lampe du bureau, le plafonnier du salon, le volet du bureau…), les actions possibles (allumer, éteindre, ouvrir, fermer…), et il génère un modèle de reconnaissance adapté à votre installation spécifique.

Ce modèle est entraîné au démarrage de l’add-on. Dans les logs, on voit le système parcourir les entités, construire les combinaisons de phrases possibles, et préparer le moteur de reconnaissance. C’est pour ça que je conseille de limiter les entités exposées — pas besoin d’exposer toute l’installation, juste ce qu’on veut piloter à la voix.

Ce que ça donne en pratique

Démonstration en direct au début de la vidéo :

“Ok Nabou, allume la lampe du bureau” → allumage immédiat, réponse “Allumé”
“Ok Nabou, éteins la lampe” → extinction immédiate

Les temps mesurés dans le débugage Home Assistant :

STT (Speech-to-phrase) : 1 seconde 14 pour reconnaître “quelle heure est-il”
Agent conversationnel : 0,01 seconde
TTS : quasi instantané

On est dans l’ordre de 2-3 secondes au total, communications réseau comprises. C’est fonctionnel.

Les limites de Speech-to-phrase

Speech-to-phrase est strict par conception. Si vous dites “allume la lumière du bureau” et que l’entité s’appelle “lampe du bureau”, il peut ne pas faire le lien. Il faut utiliser les phrases exactes qu’il connaît. L’avantage : quand ça correspond, c’est ultra-rapide et ultra-fiable. L’inconvénient : il faut un apprentissage minimal de quelles formulations fonctionnent.

Si vous dites “ouvre le moteur de la porte de garage” là où il faudrait dire “ouvre la porte de garage”, Speech-to-phrase ne comprendra pas. Un LLM, lui, ferait le lien.

Comparaison directe : Speech-to-phrase vs LLM

J’ai fait le test en live, en basculant d’un assistant à l’autre sur la même machine.

Avec Vosk + Google Generative AI (l’agent LLM) :

“Quelle heure est-il ?” → réponse en 3 secondes environ
“Peux-tu me dire l’heure qu’il est ?” → réponse correcte
“Qu’y a-t-il sur l’horloge ?” → réponse correcte (“L’horloge indique 14h01”)
“Éteins toutes les lumières” → même si prononcé un peu flou, il comprend et exécute

Le LLM est puissant pour les variations de langage. Il gère le contexte. Si vous venez d’allumer quelque chose et que vous dites “éteins-le”, il comprend ce que vous voulez dire. C’est naturel.

Avec Speech-to-phrase :

Les mêmes commandes de domotique passent en 1-2 secondes au lieu de 3-4
La reconnaissance est plus précise sur les commandes exactes
Sur du matériel modeste (ma Zima Board, Celeron N3450, 8 Go RAM), le gain est significatif

Le trade-off est clair : Speech-to-phrase est plus rapide et plus léger, mais moins expressif. Pour faire de la domotique pure — allumer, éteindre, ouvrir, fermer, demander l’heure, lancer une scène — Speech-to-phrase suffit largement. Pour avoir des conversations ou poser des questions complexes, il faut un LLM.

Mon setup de production

Je tourne Home Assistant sur une Zima Board — Celeron N3450, 8 Go de RAM, stockage interne. C’est pas une bête de course. Mais c’est largement suffisant pour faire tourner Speech-to-phrase.

Ma configuration d’assistant vocal actuelle :

STT : Speech-to-phrase (ou Vosk selon l’assistant)
Agent conversationnel : Home Assistant natif (pour Speech-to-phrase) ou Google Generative AI (pour la version LLM)
TTS : Google Translate — avec cache local pour ne pas tout re-générer. Je préfère l’intonation française de Google Translate à Piper, que je trouve moins naturel.

J’ai deux assistants configurés dans Home Assistant — un pour Speech-to-phrase, un pour Vosk + LLM — et je bascule selon le contexte. Je peux assigner un assistant particulier à un satellite spécifique depuis l’appareil lui-même.

Installation de l’add-on Speech-to-phrase

C’est via le gestionnaire d’add-ons de Home Assistant, comme n’importe quel module complémentaire :

Rechercher “speech” dans la boutique des add-ons
Installer Speech-to-phrase
Activer le watchdog (redémarrage automatique en cas de pépin)
Démarrer l’add-on
Surveiller les logs — on voit le training des entités au démarrage

La détection par le protocole Wyoming se fait normalement automatiquement — une notification apparaît dans Appareils & Services pour ajouter l’intégration. Si ça ne se fait pas automatiquement, une désinstallation + redémarrage complet de HA + réinstallation suffit en général à débloquer la situation. C’est ce que j’ai dû faire.

Une fois ajouté, on voit l’entité Speech-to-phrase dans la liste des services STT disponibles. Il suffit de l’affecter à un assistant vocal dans la configuration Assist.

L’exposition des entités

Un point que je trouve pas encore abouti dans Home Assistant : la granularité de l’exposition des entités par assistant. Actuellement, on peut choisir quelles entités sont exposées à Assist, mais pas les restreindre par satellite ou par assistant spécifique.

Ce que je voudrais : pouvoir dire “ce satellite dans la cuisine ne connaît que les entités de la cuisine et de la maison globale”. Ça réduirait les risques d’interactions avec le mauvais équipement et rendrait le système plus pertinent. Ce n’est pas encore possible, mais c’est sur la roadmap Home Assistant.

Le vrai problème qui n’a pas changé

Speech-to-phrase améliore énormément la vitesse et la fiabilité — quand vous êtes près de l’enceinte. Mais le Voice PE reste limité en capture vocale à distance.

Dans une pièce, à quelques mètres, ça peut fonctionner. Mais depuis une pièce adjacente, depuis le couloir, ou avec un peu de bruit ambiant, les erreurs de reconnaissance s’accumulent. Speech-to-phrase limite la casse dans ces cas — il dit “je ne comprends pas” plutôt que d’exécuter une mauvaise commande — mais il ne résout pas le problème de fond.

Les Google Home et Nest Audio sont sur un autre niveau pour la capture vocale. Leurs microphones et leur traitement du signal sont clairement meilleurs. C’est là où le Voice PE a encore du chemin à faire.

Mes options de pipeline dans Home Assistant

Home Assistant laisse un choix total sur la façon d’interagir à la voix. Les grandes options disponibles :

Entièrement local :

Speech-to-phrase + Home Assistant natif + Piper
Performant sur matériel modeste, zéro cloud, phrases fixes

Hybride local/cloud partiel :

Vosk (STT local) + Google Generative AI (LLM cloud) + Google Translate (TTS cloud avec cache)
C’est ce que j’utilise en prod — le STT reste local, seul l’agent conversationnel est cloud

Via Nabu Casa (Home Assistant Cloud) :

Abonnement payant, mais donne accès à des modèles STT/TTS de qualité et à un agent conversationnel cloud performant
Je ne l’ai pas testé personnellement (pas d’abonnement actif), mais c’est l’option la plus simple pour quelqu’un qui veut du clé-en-main

Via Google ou Amazon :

Intégrations disponibles dans Home Assistant
Pratique, mais retour au cloud des géants du web

Conclusion

Speech-to-phrase est un beau pas en avant. Pour une domotique pure — contrôler des appareils, déclencher des scènes, demander l’heure ou la météo — c’est suffisant, rapide, fiable, et ça tourne sur du matériel raisonnable.

Je ne dis pas aujourd’hui que le Voice PE va remplacer mes Google Home. Pour l’instant non. Les enceintes Google sont plus fluides, plus précises à distance, plus matures pour l’usage quotidien. Mais Home Assistant avance vite sur tout ce qui est commandes vocales, et je pense que dans quelques mois ou un an, la situation aura encore évolué.

Ce que je retiens de Speech-to-phrase, c’est l’approche : au lieu de chercher à faire de l’IA généraliste qui consomme des ressources, on fait quelque chose de précis, de léger, et de parfaitement adapté à l’usage domotique. C’est intelligent.

Pour l’exposition des entités par satellite — si Home Assistant implémente ça un jour, ce sera vraiment bien. En attendant, c’est la limite principale que j’observe dans mon usage quotidien.