En bref
| Origine | Offert par Domadoo pour test |
| Liens | Voice PE sur Domadoo · Speech-to-Phrase â Voice chapter 9 · Manuel Voice PE |
| â Les + | â Les â |
|---|---|
| 100% local, zéro cloud | Jeu de commandes limité par conception |
| Faible latence avec Speech-to-phrase | Moins expressif quâun modĂšle de langage |
| Fonctionne sur matériel modeste | Capture vocale limitée à distance |
| Pas de dépendance Google/Amazon | Toujours moins fluide que Google Nest Audio |
Verdict : Les commandes vocales locales ne sont plus un espoir â elles fonctionnent. Speech-to-phrase change tout sur la latence et la fiabilitĂ©. Le prix Ă payer, câest un jeu de phrases fixes : pas de langage naturel libre. Mais pour contrĂŽler sa domotique, câest amplement suffisant.
Câest ma deuxiĂšme vidĂ©o sur le Voice PE
La premiĂšre, je lâavais faite il y a quelques semaines. Jâavais promis de revenir sâil y avait du neuf. Du neuf, il y en a : lâĂ©quipe Home Assistant a prĂ©sentĂ© Speech-to-phrase, une nouvelle approche de la reconnaissance vocale locale. Câest lâobjet de cette vidĂ©o.
Pour rappel sur le produit lui-mĂȘme : le Voice PE (Preview Edition) est une enceinte avec des microphones, une architecture ESP Ă lâintĂ©rieur, et quasiment aucun traitement embarquĂ© Ă part la gestion du mot-clĂ© de rĂ©veil (âok Nabouâ). Tout le reste â la reconnaissance vocale, lâinterprĂ©tation, la rĂ©ponse â se fait sur votre installation Home Assistant. Câest un satellite de commande vocale, pas un produit autonome.
Jâai des Google Home et des Nest Audio dans mon salon, visibles dans la vidĂ©o. Je les utilise encore. Lâenjeu avec le Voice PE, câest de savoir si un jour il peut les remplacer â en gardant le traitement entiĂšrement chez moi.
La pipeline vocale dans Home Assistant
Quand vous donnez une commande vocale, il se passe plusieurs étapes distinctes :
- DĂ©tection du mot-clĂ© (Wake Word) : traitĂ©e directement sur le Voice PE, sans envoyer quoi que ce soit au rĂ©seau. Câest rapide, lĂ©ger, continu.
- Speech-to-Text (STT) : le fichier audio capturĂ© est transformĂ© en texte. Câest lĂ que diffĂ©rentes solutions entrent en jeu â Vosk, Whisper, ou maintenant Speech-to-phrase.
- Agent conversationnel : le texte est interprété pour en déduire une action. Home Assistant natif, Google Generative AI, ou un LLM local selon votre config.
- Text-to-Speech (TTS) : la rĂ©ponse est gĂ©nĂ©rĂ©e en audio et Ă©mise par lâenceinte. Piper ou Google Translate selon la config.
Tout ça, vous le configurez vous-mĂȘme dans Home Assistant, dans la section Assistants vocaux. Vous pouvez mixer les briques : local pour certaines, cloud pour dâautres, en fonction de vos besoins et de votre matĂ©riel.
Speech-to-phrase : la vraie nouveauté
AnnoncĂ© dans le âVoice Chapter 9â du blog Home Assistant (13 fĂ©vrier 2025).
LâidĂ©e est diffĂ©rente des approches classiques. PlutĂŽt que de tenter de comprendre du langage naturel libre â ce qui nĂ©cessite un LLM ou un modĂšle lourd â, Speech-to-phrase fonctionne avec un jeu de phrases prĂ©cĂąblĂ©es. Home Assistant connaĂźt vos entitĂ©s (la lampe du bureau, le plafonnier du salon, le volet du bureauâŠ), les actions possibles (allumer, Ă©teindre, ouvrir, fermerâŠ), et il gĂ©nĂšre un modĂšle de reconnaissance adaptĂ© Ă votre installation spĂ©cifique.
Ce modĂšle est entraĂźnĂ© au dĂ©marrage de lâadd-on. Dans les logs, on voit le systĂšme parcourir les entitĂ©s, construire les combinaisons de phrases possibles, et prĂ©parer le moteur de reconnaissance. Câest pour ça que je conseille de limiter les entitĂ©s exposĂ©es â pas besoin dâexposer toute lâinstallation, juste ce quâon veut piloter Ă la voix.
Ce que ça donne en pratique
Démonstration en direct au début de la vidéo :
- âOk Nabou, allume la lampe du bureauâ â allumage immĂ©diat, rĂ©ponse âAllumĂ©â
- âOk Nabou, Ă©teins la lampeâ â extinction immĂ©diate
Les temps mesurés dans le débugage Home Assistant :
- STT (Speech-to-phrase) : 1 seconde 14 pour reconnaĂźtre âquelle heure est-ilâ
- Agent conversationnel : 0,01 seconde
- TTS : quasi instantané
On est dans lâordre de 2-3 secondes au total, communications rĂ©seau comprises. Câest fonctionnel.
Les limites de Speech-to-phrase
Speech-to-phrase est strict par conception. Si vous dites âallume la lumiĂšre du bureauâ et que lâentitĂ© sâappelle âlampe du bureauâ, il peut ne pas faire le lien. Il faut utiliser les phrases exactes quâil connaĂźt. Lâavantage : quand ça correspond, câest ultra-rapide et ultra-fiable. LâinconvĂ©nient : il faut un apprentissage minimal de quelles formulations fonctionnent.
Si vous dites âouvre le moteur de la porte de garageâ lĂ oĂč il faudrait dire âouvre la porte de garageâ, Speech-to-phrase ne comprendra pas. Un LLM, lui, ferait le lien.
Comparaison directe : Speech-to-phrase vs LLM
Jâai fait le test en live, en basculant dâun assistant Ă lâautre sur la mĂȘme machine.
Avec Vosk + Google Generative AI (lâagent LLM) :
- âQuelle heure est-il ?â â rĂ©ponse en 3 secondes environ
- âPeux-tu me dire lâheure quâil est ?â â rĂ©ponse correcte
- âQuây a-t-il sur lâhorloge ?â â rĂ©ponse correcte (âLâhorloge indique 14h01â)
- âĂteins toutes les lumiĂšresâ â mĂȘme si prononcĂ© un peu flou, il comprend et exĂ©cute
Le LLM est puissant pour les variations de langage. Il gĂšre le contexte. Si vous venez dâallumer quelque chose et que vous dites âĂ©teins-leâ, il comprend ce que vous voulez dire. Câest naturel.
Avec Speech-to-phrase :
- Les mĂȘmes commandes de domotique passent en 1-2 secondes au lieu de 3-4
- La reconnaissance est plus précise sur les commandes exactes
- Sur du matériel modeste (ma Zima Board, Celeron N3450, 8 Go RAM), le gain est significatif
Le trade-off est clair : Speech-to-phrase est plus rapide et plus lĂ©ger, mais moins expressif. Pour faire de la domotique pure â allumer, Ă©teindre, ouvrir, fermer, demander lâheure, lancer une scĂšne â Speech-to-phrase suffit largement. Pour avoir des conversations ou poser des questions complexes, il faut un LLM.
Mon setup de production
Je tourne Home Assistant sur une Zima Board â Celeron N3450, 8 Go de RAM, stockage interne. Câest pas une bĂȘte de course. Mais câest largement suffisant pour faire tourner Speech-to-phrase.
Ma configuration dâassistant vocal actuelle :
- STT : Speech-to-phrase (ou Vosk selon lâassistant)
- Agent conversationnel : Home Assistant natif (pour Speech-to-phrase) ou Google Generative AI (pour la version LLM)
- TTS : Google Translate â avec cache local pour ne pas tout re-gĂ©nĂ©rer. Je prĂ©fĂšre lâintonation française de Google Translate Ă Piper, que je trouve moins naturel.
Jâai deux assistants configurĂ©s dans Home Assistant â un pour Speech-to-phrase, un pour Vosk + LLM â et je bascule selon le contexte. Je peux assigner un assistant particulier Ă un satellite spĂ©cifique depuis lâappareil lui-mĂȘme.
Installation de lâadd-on Speech-to-phrase
Câest via le gestionnaire dâadd-ons de Home Assistant, comme nâimporte quel module complĂ©mentaire :
- Rechercher âspeechâ dans la boutique des add-ons
- Installer Speech-to-phrase
- Activer le watchdog (redémarrage automatique en cas de pépin)
- DĂ©marrer lâadd-on
- Surveiller les logs â on voit le training des entitĂ©s au dĂ©marrage
La dĂ©tection par le protocole Wyoming se fait normalement automatiquement â une notification apparaĂźt dans Appareils & Services pour ajouter lâintĂ©gration. Si ça ne se fait pas automatiquement, une dĂ©sinstallation + redĂ©marrage complet de HA + rĂ©installation suffit en gĂ©nĂ©ral Ă dĂ©bloquer la situation. Câest ce que jâai dĂ» faire.
Une fois ajoutĂ©, on voit lâentitĂ© Speech-to-phrase dans la liste des services STT disponibles. Il suffit de lâaffecter Ă un assistant vocal dans la configuration Assist.
Lâexposition des entitĂ©s
Un point que je trouve pas encore abouti dans Home Assistant : la granularitĂ© de lâexposition des entitĂ©s par assistant. Actuellement, on peut choisir quelles entitĂ©s sont exposĂ©es Ă Assist, mais pas les restreindre par satellite ou par assistant spĂ©cifique.
Ce que je voudrais : pouvoir dire âce satellite dans la cuisine ne connaĂźt que les entitĂ©s de la cuisine et de la maison globaleâ. Ăa rĂ©duirait les risques dâinteractions avec le mauvais Ă©quipement et rendrait le systĂšme plus pertinent. Ce nâest pas encore possible, mais câest sur la roadmap Home Assistant.
Le vrai problĂšme qui nâa pas changĂ©
Speech-to-phrase amĂ©liore Ă©normĂ©ment la vitesse et la fiabilitĂ© â quand vous ĂȘtes prĂšs de lâenceinte. Mais le Voice PE reste limitĂ© en capture vocale Ă distance.
Dans une piĂšce, Ă quelques mĂštres, ça peut fonctionner. Mais depuis une piĂšce adjacente, depuis le couloir, ou avec un peu de bruit ambiant, les erreurs de reconnaissance sâaccumulent. Speech-to-phrase limite la casse dans ces cas â il dit âje ne comprends pasâ plutĂŽt que dâexĂ©cuter une mauvaise commande â mais il ne rĂ©sout pas le problĂšme de fond.
Les Google Home et Nest Audio sont sur un autre niveau pour la capture vocale. Leurs microphones et leur traitement du signal sont clairement meilleurs. Câest lĂ oĂč le Voice PE a encore du chemin Ă faire.
Mes options de pipeline dans Home Assistant
Home Assistant laisse un choix total sur la façon dâinteragir Ă la voix. Les grandes options disponibles :
EntiĂšrement local :
- Speech-to-phrase + Home Assistant natif + Piper
- Performant sur matériel modeste, zéro cloud, phrases fixes
Hybride local/cloud partiel :
- Vosk (STT local) + Google Generative AI (LLM cloud) + Google Translate (TTS cloud avec cache)
- Câest ce que jâutilise en prod â le STT reste local, seul lâagent conversationnel est cloud
Via Nabu Casa (Home Assistant Cloud) :
- Abonnement payant, mais donne accÚs à des modÚles STT/TTS de qualité et à un agent conversationnel cloud performant
- Je ne lâai pas testĂ© personnellement (pas dâabonnement actif), mais câest lâoption la plus simple pour quelquâun qui veut du clĂ©-en-main
Via Google ou Amazon :
- Intégrations disponibles dans Home Assistant
- Pratique, mais retour au cloud des géants du web
Conclusion
Speech-to-phrase est un beau pas en avant. Pour une domotique pure â contrĂŽler des appareils, dĂ©clencher des scĂšnes, demander lâheure ou la mĂ©tĂ©o â câest suffisant, rapide, fiable, et ça tourne sur du matĂ©riel raisonnable.
Je ne dis pas aujourdâhui que le Voice PE va remplacer mes Google Home. Pour lâinstant non. Les enceintes Google sont plus fluides, plus prĂ©cises Ă distance, plus matures pour lâusage quotidien. Mais Home Assistant avance vite sur tout ce qui est commandes vocales, et je pense que dans quelques mois ou un an, la situation aura encore Ă©voluĂ©.
Ce que je retiens de Speech-to-phrase, câest lâapproche : au lieu de chercher Ă faire de lâIA gĂ©nĂ©raliste qui consomme des ressources, on fait quelque chose de prĂ©cis, de lĂ©ger, et de parfaitement adaptĂ© Ă lâusage domotique. Câest intelligent.
Pour lâexposition des entitĂ©s par satellite â si Home Assistant implĂ©mente ça un jour, ce sera vraiment bien. En attendant, câest la limite principale que jâobserve dans mon usage quotidien.