Skip to content
G. G. testé !
🏠domotique 🏠Home Assistant 🔬test

Domotique et commandes vocales en local đŸŽ™ïž HA Voice PE tient ses promesses avec Speech-to-phrase !

Retour sur le Home Assistant Voice PE avec Speech-to-phrase : commandes vocales locales sans cloud, faible latence, fonctionnel. Ce que ça change par rapport aux approches précédentes.

3 min de lecture
Domotique et commandes vocales en local đŸŽ™ïž HA Voice PE tient ses promesses avec Speech-to-phrase !
Regarder la vidĂ©o — timecodes, vidĂ©os liĂ©es 33min 32s

En bref

OrigineOffert par Domadoo pour test
LiensVoice PE sur Domadoo · Speech-to-Phrase — Voice chapter 9 · Manuel Voice PE
✅ Les +❌ Les −
100% local, zéro cloudJeu de commandes limité par conception
Faible latence avec Speech-to-phraseMoins expressif qu’un modùle de langage
Fonctionne sur matériel modesteCapture vocale limitée à distance
Pas de dépendance Google/AmazonToujours moins fluide que Google Nest Audio

Verdict : Les commandes vocales locales ne sont plus un espoir — elles fonctionnent. Speech-to-phrase change tout sur la latence et la fiabilitĂ©. Le prix Ă  payer, c’est un jeu de phrases fixes : pas de langage naturel libre. Mais pour contrĂŽler sa domotique, c’est amplement suffisant.


C’est ma deuxiĂšme vidĂ©o sur le Voice PE

La premiĂšre, je l’avais faite il y a quelques semaines. J’avais promis de revenir s’il y avait du neuf. Du neuf, il y en a : l’équipe Home Assistant a prĂ©sentĂ© Speech-to-phrase, une nouvelle approche de la reconnaissance vocale locale. C’est l’objet de cette vidĂ©o.

Pour rappel sur le produit lui-mĂȘme : le Voice PE (Preview Edition) est une enceinte avec des microphones, une architecture ESP Ă  l’intĂ©rieur, et quasiment aucun traitement embarquĂ© Ă  part la gestion du mot-clĂ© de rĂ©veil (“ok Nabou”). Tout le reste — la reconnaissance vocale, l’interprĂ©tation, la rĂ©ponse — se fait sur votre installation Home Assistant. C’est un satellite de commande vocale, pas un produit autonome.

J’ai des Google Home et des Nest Audio dans mon salon, visibles dans la vidĂ©o. Je les utilise encore. L’enjeu avec le Voice PE, c’est de savoir si un jour il peut les remplacer — en gardant le traitement entiĂšrement chez moi.

La pipeline vocale dans Home Assistant

Quand vous donnez une commande vocale, il se passe plusieurs étapes distinctes :

  1. DĂ©tection du mot-clĂ© (Wake Word) : traitĂ©e directement sur le Voice PE, sans envoyer quoi que ce soit au rĂ©seau. C’est rapide, lĂ©ger, continu.
  2. Speech-to-Text (STT) : le fichier audio capturĂ© est transformĂ© en texte. C’est lĂ  que diffĂ©rentes solutions entrent en jeu — Vosk, Whisper, ou maintenant Speech-to-phrase.
  3. Agent conversationnel : le texte est interprété pour en déduire une action. Home Assistant natif, Google Generative AI, ou un LLM local selon votre config.
  4. Text-to-Speech (TTS) : la rĂ©ponse est gĂ©nĂ©rĂ©e en audio et Ă©mise par l’enceinte. Piper ou Google Translate selon la config.

Tout ça, vous le configurez vous-mĂȘme dans Home Assistant, dans la section Assistants vocaux. Vous pouvez mixer les briques : local pour certaines, cloud pour d’autres, en fonction de vos besoins et de votre matĂ©riel.

Speech-to-phrase : la vraie nouveauté

AnnoncĂ© dans le “Voice Chapter 9” du blog Home Assistant (13 fĂ©vrier 2025).

L’idĂ©e est diffĂ©rente des approches classiques. PlutĂŽt que de tenter de comprendre du langage naturel libre — ce qui nĂ©cessite un LLM ou un modĂšle lourd —, Speech-to-phrase fonctionne avec un jeu de phrases prĂ©cĂąblĂ©es. Home Assistant connaĂźt vos entitĂ©s (la lampe du bureau, le plafonnier du salon, le volet du bureau
), les actions possibles (allumer, Ă©teindre, ouvrir, fermer
), et il gĂ©nĂšre un modĂšle de reconnaissance adaptĂ© Ă  votre installation spĂ©cifique.

Ce modĂšle est entraĂźnĂ© au dĂ©marrage de l’add-on. Dans les logs, on voit le systĂšme parcourir les entitĂ©s, construire les combinaisons de phrases possibles, et prĂ©parer le moteur de reconnaissance. C’est pour ça que je conseille de limiter les entitĂ©s exposĂ©es — pas besoin d’exposer toute l’installation, juste ce qu’on veut piloter Ă  la voix.

Ce que ça donne en pratique

Démonstration en direct au début de la vidéo :

  • “Ok Nabou, allume la lampe du bureau” → allumage immĂ©diat, rĂ©ponse “AllumĂ©â€
  • “Ok Nabou, Ă©teins la lampe” → extinction immĂ©diate

Les temps mesurés dans le débugage Home Assistant :

  • STT (Speech-to-phrase) : 1 seconde 14 pour reconnaĂźtre “quelle heure est-il”
  • Agent conversationnel : 0,01 seconde
  • TTS : quasi instantanĂ©

On est dans l’ordre de 2-3 secondes au total, communications rĂ©seau comprises. C’est fonctionnel.

Les limites de Speech-to-phrase

Speech-to-phrase est strict par conception. Si vous dites “allume la lumiĂšre du bureau” et que l’entitĂ© s’appelle “lampe du bureau”, il peut ne pas faire le lien. Il faut utiliser les phrases exactes qu’il connaĂźt. L’avantage : quand ça correspond, c’est ultra-rapide et ultra-fiable. L’inconvĂ©nient : il faut un apprentissage minimal de quelles formulations fonctionnent.

Si vous dites “ouvre le moteur de la porte de garage” lĂ  oĂč il faudrait dire “ouvre la porte de garage”, Speech-to-phrase ne comprendra pas. Un LLM, lui, ferait le lien.

Comparaison directe : Speech-to-phrase vs LLM

J’ai fait le test en live, en basculant d’un assistant Ă  l’autre sur la mĂȘme machine.

Avec Vosk + Google Generative AI (l’agent LLM) :

  • “Quelle heure est-il ?” → rĂ©ponse en 3 secondes environ
  • “Peux-tu me dire l’heure qu’il est ?” → rĂ©ponse correcte
  • “Qu’y a-t-il sur l’horloge ?” → rĂ©ponse correcte (“L’horloge indique 14h01”)
  • “Éteins toutes les lumiĂšres” → mĂȘme si prononcĂ© un peu flou, il comprend et exĂ©cute

Le LLM est puissant pour les variations de langage. Il gĂšre le contexte. Si vous venez d’allumer quelque chose et que vous dites â€œĂ©teins-le”, il comprend ce que vous voulez dire. C’est naturel.

Avec Speech-to-phrase :

  • Les mĂȘmes commandes de domotique passent en 1-2 secondes au lieu de 3-4
  • La reconnaissance est plus prĂ©cise sur les commandes exactes
  • Sur du matĂ©riel modeste (ma Zima Board, Celeron N3450, 8 Go RAM), le gain est significatif

Le trade-off est clair : Speech-to-phrase est plus rapide et plus lĂ©ger, mais moins expressif. Pour faire de la domotique pure — allumer, Ă©teindre, ouvrir, fermer, demander l’heure, lancer une scĂšne — Speech-to-phrase suffit largement. Pour avoir des conversations ou poser des questions complexes, il faut un LLM.

Mon setup de production

Je tourne Home Assistant sur une Zima Board — Celeron N3450, 8 Go de RAM, stockage interne. C’est pas une bĂȘte de course. Mais c’est largement suffisant pour faire tourner Speech-to-phrase.

Ma configuration d’assistant vocal actuelle :

  • STT : Speech-to-phrase (ou Vosk selon l’assistant)
  • Agent conversationnel : Home Assistant natif (pour Speech-to-phrase) ou Google Generative AI (pour la version LLM)
  • TTS : Google Translate — avec cache local pour ne pas tout re-gĂ©nĂ©rer. Je prĂ©fĂšre l’intonation française de Google Translate Ă  Piper, que je trouve moins naturel.

J’ai deux assistants configurĂ©s dans Home Assistant — un pour Speech-to-phrase, un pour Vosk + LLM — et je bascule selon le contexte. Je peux assigner un assistant particulier Ă  un satellite spĂ©cifique depuis l’appareil lui-mĂȘme.

Installation de l’add-on Speech-to-phrase

C’est via le gestionnaire d’add-ons de Home Assistant, comme n’importe quel module complĂ©mentaire :

  1. Rechercher “speech” dans la boutique des add-ons
  2. Installer Speech-to-phrase
  3. Activer le watchdog (redémarrage automatique en cas de pépin)
  4. DĂ©marrer l’add-on
  5. Surveiller les logs — on voit le training des entitĂ©s au dĂ©marrage

La dĂ©tection par le protocole Wyoming se fait normalement automatiquement — une notification apparaĂźt dans Appareils & Services pour ajouter l’intĂ©gration. Si ça ne se fait pas automatiquement, une dĂ©sinstallation + redĂ©marrage complet de HA + rĂ©installation suffit en gĂ©nĂ©ral Ă  dĂ©bloquer la situation. C’est ce que j’ai dĂ» faire.

Une fois ajoutĂ©, on voit l’entitĂ© Speech-to-phrase dans la liste des services STT disponibles. Il suffit de l’affecter Ă  un assistant vocal dans la configuration Assist.

L’exposition des entitĂ©s

Un point que je trouve pas encore abouti dans Home Assistant : la granularitĂ© de l’exposition des entitĂ©s par assistant. Actuellement, on peut choisir quelles entitĂ©s sont exposĂ©es Ă  Assist, mais pas les restreindre par satellite ou par assistant spĂ©cifique.

Ce que je voudrais : pouvoir dire “ce satellite dans la cuisine ne connaĂźt que les entitĂ©s de la cuisine et de la maison globale”. Ça rĂ©duirait les risques d’interactions avec le mauvais Ă©quipement et rendrait le systĂšme plus pertinent. Ce n’est pas encore possible, mais c’est sur la roadmap Home Assistant.

Le vrai problĂšme qui n’a pas changĂ©

Speech-to-phrase amĂ©liore Ă©normĂ©ment la vitesse et la fiabilitĂ© — quand vous ĂȘtes prĂšs de l’enceinte. Mais le Voice PE reste limitĂ© en capture vocale Ă  distance.

Dans une piĂšce, Ă  quelques mĂštres, ça peut fonctionner. Mais depuis une piĂšce adjacente, depuis le couloir, ou avec un peu de bruit ambiant, les erreurs de reconnaissance s’accumulent. Speech-to-phrase limite la casse dans ces cas — il dit “je ne comprends pas” plutĂŽt que d’exĂ©cuter une mauvaise commande — mais il ne rĂ©sout pas le problĂšme de fond.

Les Google Home et Nest Audio sont sur un autre niveau pour la capture vocale. Leurs microphones et leur traitement du signal sont clairement meilleurs. C’est lĂ  oĂč le Voice PE a encore du chemin Ă  faire.

Mes options de pipeline dans Home Assistant

Home Assistant laisse un choix total sur la façon d’interagir à la voix. Les grandes options disponibles :

EntiĂšrement local :

  • Speech-to-phrase + Home Assistant natif + Piper
  • Performant sur matĂ©riel modeste, zĂ©ro cloud, phrases fixes

Hybride local/cloud partiel :

  • Vosk (STT local) + Google Generative AI (LLM cloud) + Google Translate (TTS cloud avec cache)
  • C’est ce que j’utilise en prod — le STT reste local, seul l’agent conversationnel est cloud

Via Nabu Casa (Home Assistant Cloud) :

  • Abonnement payant, mais donne accĂšs Ă  des modĂšles STT/TTS de qualitĂ© et Ă  un agent conversationnel cloud performant
  • Je ne l’ai pas testĂ© personnellement (pas d’abonnement actif), mais c’est l’option la plus simple pour quelqu’un qui veut du clĂ©-en-main

Via Google ou Amazon :

  • IntĂ©grations disponibles dans Home Assistant
  • Pratique, mais retour au cloud des gĂ©ants du web

Conclusion

Speech-to-phrase est un beau pas en avant. Pour une domotique pure — contrĂŽler des appareils, dĂ©clencher des scĂšnes, demander l’heure ou la mĂ©tĂ©o — c’est suffisant, rapide, fiable, et ça tourne sur du matĂ©riel raisonnable.

Je ne dis pas aujourd’hui que le Voice PE va remplacer mes Google Home. Pour l’instant non. Les enceintes Google sont plus fluides, plus prĂ©cises Ă  distance, plus matures pour l’usage quotidien. Mais Home Assistant avance vite sur tout ce qui est commandes vocales, et je pense que dans quelques mois ou un an, la situation aura encore Ă©voluĂ©.

Ce que je retiens de Speech-to-phrase, c’est l’approche : au lieu de chercher Ă  faire de l’IA gĂ©nĂ©raliste qui consomme des ressources, on fait quelque chose de prĂ©cis, de lĂ©ger, et de parfaitement adaptĂ© Ă  l’usage domotique. C’est intelligent.

Pour l’exposition des entitĂ©s par satellite — si Home Assistant implĂ©mente ça un jour, ce sera vraiment bien. En attendant, c’est la limite principale que j’observe dans mon usage quotidien.

Signaler une erreur

Pour les questions techniques

Passe par les commentaires YouTube ou le Discord — ta question profite à tout le monde.

Ce formulaire est uniquement pour signaler une erreur dans le contenu.

Retour aux articles
Partager :

Suivre la chaĂźne

Une vidĂ©o chaque jeudi Ă  17h30 — abonnez-vous pour ne rien rater.