[ad_1]
Dans les réunions virtuelles, il est facile d’empêcher les gens de se parler. Quelqu’un vient de couper le son. Mais pour l’essentiel, cette capacité ne se traduit pas facilement par l’enregistrement de rassemblements en personne. Dans un café animé, il n’y a pas de boutons pour faire taire la table à côté de vous.
La capacité de localiser et de contrôler le son (isoler une personne qui parle d’un endroit spécifique dans une pièce bondée, par exemple) a mis les chercheurs au défi, en particulier sans les repères visuels des caméras.
Une équipe dirigée par des chercheurs de l’Université de Washington a développé un haut-parleur intelligent qui change de forme, qui utilise des microphones auto-déployants pour diviser les pièces en zones de parole et suivre les positions des locuteurs individuels. Grâce aux algorithmes d’apprentissage en profondeur de l’équipe, le système permet aux utilisateurs de désactiver certaines zones ou de séparer les conversations simultanées, même si deux personnes adjacentes ont des voix similaires. Comme une flotte de Roombas, chacun d’environ un pouce de diamètre, les microphones se déploient automatiquement depuis, puis reviennent vers, une station de recharge. Cela permet au système d’être déplacé entre les environnements et de se configurer automatiquement. Dans une salle de conférence, par exemple, un tel système pourrait être déployé à la place d’un microphone central, permettant ainsi un meilleur contrôle de l’audio dans la salle.
L’équipe a publié ses conclusions le 21 septembre dans Communications naturelles.
« Si je ferme les yeux et qu’il y a 10 personnes qui parlent dans une pièce, je n’ai aucune idée de qui dit quoi et où elles se trouvent exactement dans la pièce. C’est extrêmement difficile à traiter pour le cerveau humain. Jusqu’à présent, cela a également été difficile pour le cerveau humain. « , a déclaré le co-auteur principal Malek Itani, doctorant à l’UW à la Paul G. Allen School of Computer Science & Engineering. « Pour la première fois, en utilisant ce que nous appelons un « essaim acoustique » robotique, nous sommes capables de suivre les positions de plusieurs personnes parlant dans une pièce et de séparer leurs discours. »
Les recherches antérieures sur les essaims de robots ont nécessité l’utilisation de caméras aériennes ou intégrées, de projecteurs ou de surfaces spéciales. Le système de l’équipe UW est le premier à distribuer avec précision un essaim de robots en utilisant uniquement le son.
Le prototype de l’équipe se compose de sept petits robots répartis sur des tables de différentes tailles. Lorsqu’ils quittent leur chargeur, chaque robot émet un son à haute fréquence, comme une chauve-souris naviguant, utilisant cette fréquence et d’autres capteurs pour éviter les obstacles et se déplacer sans tomber de la table. Le déploiement automatique permet aux robots de se placer avec une précision maximale, permettant un meilleur contrôle du son que si une personne les installait. Les robots se dispersent le plus loin possible les uns des autres, car des distances plus grandes facilitent la différenciation et la localisation des personnes qui parlent. Les haut-parleurs intelligents grand public d’aujourd’hui disposent de plusieurs microphones, mais regroupés sur le même appareil, ils sont trop proches pour permettre les zones muettes et actives de ce système.
« Si j’ai un microphone à un pied de moi et un autre microphone à deux pieds, ma voix arrivera en premier au microphone situé à un pied. Si quelqu’un d’autre est plus proche du microphone qui est à deux pieds, sa voix y arrivera. d’abord », a déclaré le co-auteur principal Tuochao Chen, doctorant à l’UW à l’école Allen. « Nous avons développé des réseaux neuronaux qui utilisent ces signaux temporisés pour séparer ce que dit chaque personne et suivre leur position dans un espace. Ainsi, vous pouvez avoir quatre personnes ayant deux conversations, isoler l’une des quatre voix et localiser chacune des voix dans une chambre. »
L’équipe a testé les robots dans des bureaux, des salons et des cuisines avec des groupes de trois à cinq personnes parlant. Dans tous ces environnements, le système pouvait discerner différentes voix à moins de 50 centimètres les unes des autres 90 % du temps, sans information préalable sur le nombre de locuteurs. Le système était capable de traiter trois secondes d’audio en 1,82 seconde en moyenne, ce qui était assez rapide pour la diffusion en direct, mais un peu trop long pour les communications en temps réel telles que les appels vidéo.
Selon les chercheurs, à mesure que la technologie progresse, des essaims acoustiques pourraient être déployés dans les maisons intelligentes pour mieux différencier les personnes qui parlent avec des haut-parleurs intelligents. Cela pourrait potentiellement permettre uniquement aux personnes assises sur un canapé, dans une « zone active », de contrôler vocalement un téléviseur, par exemple.
Les chercheurs prévoient de créer à terme des robots microphones capables de se déplacer dans les pièces, au lieu de se limiter aux tables. L’équipe étudie également si les haut-parleurs peuvent émettre des sons permettant des zones actives et muettes du monde réel, afin que les personnes situées dans différentes parties d’une pièce puissent entendre un son différent. L’étude actuelle constitue une nouvelle étape vers les technologies de science-fiction, telles que le « cône de silence » dans « Get Smart » et « Dune », écrivent les auteurs.
Bien entendu, toute technologie évoquant une comparaison avec des outils d’espionnage fictifs soulèvera des questions de confidentialité. Les chercheurs reconnaissent le potentiel d’utilisation abusive, c’est pourquoi ils ont inclus des garde-fous contre cela : les microphones naviguent avec le son, et non avec une caméra embarquée comme d’autres systèmes similaires. Les robots sont facilement visibles et leurs lumières clignotent lorsqu’ils sont actifs. Au lieu de traiter l’audio dans le cloud, comme le font la plupart des haut-parleurs intelligents, les essaims acoustiques traitent tout l’audio localement, comme une contrainte de confidentialité. Et même si certaines personnes pensent d’abord à la surveillance, le système peut être utilisé à l’opposé, affirme l’équipe.
« Cela a le potentiel d’améliorer réellement la vie privée, au-delà de ce que permettent les haut-parleurs intelligents actuels », a déclaré Itani. « Je peux dire : ‘N’enregistrez rien autour de mon bureau’, et notre système créera une bulle à 3 pieds autour de moi. Rien dans cette bulle ne sera enregistré. Ou si deux groupes parlent l’un à côté de l’autre et qu’un groupe discute une conversation privée, pendant que l’autre groupe enregistre, une conversation peut être dans une zone muette et elle restera privée.
[ad_2]