Facebook forme l’IA en vue à la première personne. C’est intelligent et alarmant


Le projet Ego4D de Facebook vise à créer une IA qui fournira des repères AR dans la vie quotidienne pour aider les utilisateurs et sonne comme un véritable aperçu de son métavers.

Facebook a annoncé un nouveau projet de recherche appelé Ego4D qui vise à former des modèles d’IA à l’aide de vidéos capturées d’un point de vue humain, puis à fournir des conseils à l’aide d’indices de réalité augmentée en accédant au journal des enregistrements passés. Le dernier projet de recherche centré sur l’IA du géant des médias sociaux met la technologie de vision par ordinateur au premier plan, qui est déjà utilisée dans une certaine mesure pour des produits tels que Google Lens et une poignée d’autres outils d’achat où une image est étudiée pour extraire des listes similaires d’e -plateformes commerciales.

La société a récemment détaillé ses travaux sur de nouveaux outils de recherche visuelle et de découverte de produits basés sur l’IA qui amélioreront l’expérience d’achat sur Instagram. Plus tard, il affichera des listes en ligne de vêtements en appuyant simplement sur la photo d’une personne. Le système interne de reconnaissance de produits est si avancé qu’il affichera des produits pertinents même pour de vagues requêtes textuelles telles que “trouver une chemise avec un motif à pois similaire” sur ses plates-formes. Mais tous ces systèmes de reconnaissance d’objets sont principalement basés sur un système de vision par ordinateur formé sur des photos et des vidéos capturées à partir d’une perspective à la troisième personne.


Facebook va encore plus loin en changeant la perspective des données d’entraînement de la ligne de touche au milieu de l’action avec une perspective à la première personne dans le cadre de son projet Ego4D AI. Les possibilités semblent être infiniment bénéfiques et un peu effrayantes aussi. Pour collecter les données de formation, Facebook s’est associé à 13 institutions dans neuf pays qui ont recruté plus de 700 participants pour enregistrer plus de 2 200 heures de séquences vidéo à la première personne documentant les activités quotidiennes telles que faire l’épicerie, laver les ustensiles et jouer de la batterie pour ne citer qu’eux. quelques. L’objectif est de capturer les activités et également d’évaluer le scénario du point de vue d’une personne, un peu comme l’action enregistrée par les lunettes de soleil Ray-Ban Stories de Facebook.

Le premier aperçu du métaverse avec la réalité augmentée au centre

L’entreprise l’appelle perception égocentrique, d’où le nom Ego4D. La vidéo a été transcrite et annotée pour décrire tout dans le cadre, d’un objet à l’action, afin de créer un ensemble de données que les chercheurs du monde entier peuvent utiliser pour développer des systèmes de vision par ordinateur et catalyser une nouvelle vague de développement de l’IA. Wendy’s s’est récemment associée à Google Cloud pour créer un tel système de vision par ordinateur qui surveillera la cuisine et alertera le cuisinier lorsqu’il est temps de retourner les hamburgers. Cependant, le projet Ego4D de Facebook donne une tournure AR à ces capacités d’IA qui vont bien au-delà de l’analyse et entrent en fait dans le domaine de la prédiction des actions des utilisateurs.

Pour ce faire, Facebook a évoqué un ensemble de cinq repères qu’une perception égocentrique de l’IA doit atteindre. La première est la mémoire épisodique, qui fonctionne exactement de la même manière que la mémoire humaine. Par exemple, lorsque les utilisateurs oublient où ils ont placé la télécommande du téléviseur, l’IA accédera aux anciennes vidéos à la première personne pour vérifier où les utilisateurs l’ont laissée, puis les guidera vers l’endroit en utilisant des repères AR un peu comme Apple Maps. La deuxième référence est la prévision, qui prédit ce que l’utilisateur est sur le point de faire et fournit l’alerte nécessaire. Ainsi, si un utilisateur a déjà ajouté du poivre à son curry et cherche à nouveau la bouteille de poudre de poivre, l’IA reconnaîtra l’action imminente et alertera instantanément les utilisateurs que l’ingrédient a déjà été ajouté.

De même, le « manipulation des mains et des objets » benchmark veut que l’IA se souvienne d’une séquence correcte d’événements, ce que les étudiants trouveront utile car les indices AR leur montreront les étapes d’une vidéo de formation enregistrée. Le quatrième point de référence est l’interaction sociale, tandis que le cinquième – et le plus alarmant – est diarisation audiovisuelle. Celui-ci consiste à enregistrer un journal audio (et éventuellement textuel) de ce que disait une personne dans la vue de la caméra. Les utilisateurs peuvent ensuite poser des questions à l’IA, telles que ce que la personne ABC a dit pendant sa pause-café un jour donné. Facebook n’a pas encore détaillé les garanties des scénarios d’intrusion de la vie privée apparemment massifs pour son projet. Les Ray-Ban Stories ont déjà fait l’objet d’un examen minutieux en raison de leur capacité à passer en mode fluage complet. Et avec une IA aussi intelligente qu’Ego4D, il y aura beaucoup plus de soucis liés à la confidentialité.

Du côté positif, le projet Ego4D donne un aperçu très clair de ce que Facebook veut réaliser avec le métaverse, du moins lorsqu’il s’agit d’aider les utilisateurs dans leur vie quotidienne. Et l’application massive de la réalité augmentée pour atteindre ces objectifs est un signe que Facebook mettra tout en œuvre sur la RA et que des wearables plus avancés sont définitivement en préparation. Mais la plus grande question est de savoir si les utilisateurs seront à l’aise avec Facebook avoir un accès plus personnel à leur vie via des vidéos à la première personne, étant donné le passé fragmentaire de l’entreprise avec des scandales liés à la vie privée.

Source : Facebook

Maz Kanata de Force Awakens a empêché le prochain Dark Maul




Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*