Computer Vision et handicap : Une alliance pour plus d’autonomie
Dans ce nouvel épisode de "IA pas que la Data", on y explore comment l'entreprise Biped.ai utilise la vision par ordinateur et l'IA générative pour révolutionner l'aide aux personnes malvoyantes.
L'autonomie des personnes malvoyantes est un défi complexe qui appelle des solutions innovantes. Le podcast IA pas que la Data a mis en lumière une approche particulièrement intéressante avec Biped.ai, une entreprise qui combine vision par ordinateur et IA générative pour créer un système d'assistance à la mobilité. Découvrez l’interview de Maël Fabien, co-fondateur de Biped.ai.
Avant de continuer, un rappel : IA pas que la Data est le podcast où Thomas Meimoun (Senior Data Scientist) et Pierre Vannier (CEO de Flint) dissèquent les tendances de l'IA et de la data. Ils ne mâchent pas leurs mots et posent les questions qui comptent. D'ailleurs, si vous souhaitez booster votre productivité et simplifier le déploiement de vos applications IA, l’équipe Flint est là pour en discuter.
Passons maintenant à la dissection technique de Biped.ai.
Le Hardware : Une conception soigneuse pour une perception fiable
Le système hardware de Biped.ai ne se résume pas à une simple juxtaposition de composants ; il témoigne d'une conception réfléchie, axée sur la fiabilité et la performance. L'approche adoptée repose sur une stratégie de redondance et de diversité des capteurs. L'intégration de trois caméras offrant un large champ de vision, associée à un capteur de profondeur basé sur la vision stéréoscopique et un capteur infrarouge, permet de pallier les limitations inhérentes à chaque type de capteur. La vision stéréoscopique, en particulier, joue un rôle crucial dans la reconstruction 3D de l'environnement, fournissant des informations de distance essentielles à la navigation et à la détection d'obstacles.
L'élément central du système est un System on a Chip (SoC) soigneusement sélectionné pour répondre aux exigences de l'edge computing. Ce SoC intègre un CPU performant, un GPU pour l'accélération des calculs et un Neural Processing Unit (NPU) dédié à l'inférence des modèles de deep learning. Le choix de ce SoC est le résultat d'un compromis délicat entre la performance requise pour le traitement en temps réel, la consommation énergétique nécessaire pour garantir une autonomie suffisante et les contraintes budgétaires inhérentes à tout projet commercial. L'ajout d'un gyroscope et d'un accéléromètre, loin d'être de simples accessoires, permet de compenser les mouvements de l'utilisateur et d'estimer sa position et son orientation dans l'espace. La fusion de ces données inertielles avec les informations visuelles issues des caméras est un défi complexe qui nécessite l'implémentation d'algorithmes de filtrage sophistiqués, tels que le filtre de Kalman, afin d'obtenir une estimation précise et robuste de l'état du système.
La pipeline de traitement d'image : Un défi de performance en temps réel
La détection d'obstacles en temps réel est un élément central du système Biped.ai, et la pipeline de traitement d'image est conçue pour répondre à cet impératif. Les premières étapes consistent à calibrer et redresser les images capturées par les différentes caméras afin de corriger les distorsions optiques et d'aligner les points de vue. La phase suivante, cruciale, consiste à calculer la disparité entre les images des deux caméras, c'est-à-dire la différence de position d'un point donné dans les deux images. Cette disparité est inversement proportionnelle à la distance du point, et son calcul précis est un problème complexe qui nécessite l'utilisation d'algorithmes de matching robustes, capables de gérer les variations d'illumination, les occlusions et les distorsions géométriques.
À partir de la disparité, il est possible de reconstruire une représentation 3D de l'environnement sous la forme d'un point cloud, un ensemble de points caractérisés par leurs coordonnées 3D. Cette représentation 3D est ensuite exploitée pour segmenter le sol et distinguer les zones praticables des obstacles potentiels.
"Si tu dis juste tout ensemble de pixels qui a moins de 5 mètres par exemple est un obstacle, le sol est un obstacle, le plafond est un obstacle, tout devient un obstacle”
Cette segmentation peut être réalisée à l'aide d'algorithmes de clustering ou de machine learning entraînés à identifier les caractéristiques visuelles du sol. La dernière étape de la pipeline consiste à détecter les objets présents dans l'environnement à l'aide d'algorithmes de deep learning tels que YOLO (You Only Look Once) ou SSD (Single Shot MultiBox Detector).
Ces algorithmes, optimisés pour la vitesse et l'efficacité, permettent de détecter et de classifier les objets en une seule passe, ce qui est essentiel pour garantir la performance en temps réel du système. Afin d'anticiper les collisions potentielles, des algorithmes de tracking sont utilisés pour prédire les trajectoires des objets en mouvement.
VLM : Un orchestrateur de connaissances contextuelles
L'intégration des Vision Language Models (VLM) au sein du système Biped.ai ne se limite pas à une simple juxtaposition technologique. Les VLMs sont exploités comme des orchestrateurs de connaissances contextuelles, capables d'interpréter les informations visuelles issues des caméras et de les traduire en instructions ou en descriptions pertinentes pour l'utilisateur. Pour exploiter pleinement le potentiel des VLMs, Biped.ai ne se contente pas de leur fournir une image brute, mais leur transmet également des informations structurées sur l'environnement, telles que la position et l'orientation de l'utilisateur, la présence d'objets détectés et les instructions de navigation issues d'un système GPS.
Cette approche, qui consiste à enrichir les informations visuelles avec des données contextuelles, permet d'améliorer considérablement la précision et la pertinence des réponses fournies par les VLMs. L'intégration du "Big Red Book", un recueil de connaissances spécifiques sur la locomotion et les défis rencontrés par les personnes malvoyantes, permet également de guider les VLMs et de les orienter vers les informations les plus pertinentes.
"Si le GPS dit continuer tout droit puis tourner à droite à 14 heures, au moment où on dit tourner à droite à 14 heures, on peut faire un petit check avec les caméras, regarder si on fait un passe planning à droite à 14 heures, est-ce que le chemin est vraiment libre ou pas."
Enfin, la combinaison des VLMs avec d'autres sources d'information, telles que le GPS et les capteurs inertiels, permet de créer un système multimodal capable de s'adapter aux différentes situations rencontrées par l'utilisateur et de fournir une assistance fiable et personnalisée.
Hallucinations, RGPD, et Sécurité : Les enjeux cruciaux d'une IA responsable
L'utilisation des VLMs soulève des questions importantes en termes d'hallucinations, de respect de la vie privée et de sécurité. Les VLMs, par leur nature même, sont susceptibles de produire des résultats erronés ou incohérents.
Pour limiter ce risque, Biped.ai a mis en place une série de mesures, telles que l'utilisation de connaissances a priori, la structuration des requêtes et la surveillance constante des performances du système.
"Nous avons développé des méthodes pour passer l'information 3D sur les requêtes qu'on envoie à ces modèles-là pour qu'il ait une référence et qu'il puisse estimer la distance avec une vraie référence physique vu qu'on l'a sur notre capteur directement."
Le respect de la vie privée est également une préoccupation majeure, et Biped.ai s'engage à collecter et à traiter les données personnelles des utilisateurs conformément aux réglementations en vigueur, notamment le RGPD. Des mesures techniques et organisationnelles sont mises en œuvre pour garantir la confidentialité et la sécurité des données.
Enfin, la sécurité du système est une priorité absolue, et Biped.ai utilise des algorithmes de détection d'obstacles en local pour assurer la protection de l'utilisateur, même en cas de défaillance des VLMs ou de perte de connexion. Cette redondance, essentielle pour garantir la sécurité, témoigne de l'engagement de Biped.ai à développer une IA responsable et digne de confiance.
Le podcast est aussi disponible sur toutes les plateformes de streaming.
Biped.ai est bien plus qu'un simple projet technologique ; c'est une vision de l'avenir où l'intelligence artificielle contribue à améliorer la qualité de vie des personnes handicapées. En combinant des techniques de pointe en vision par ordinateur, en traitement du signal et en deep learning, Biped.ai repousse les limites de l'IA embarquée et ouvre de nouvelles perspectives pour l'autonomie et l'inclusion.
Cet épisode de IA pas que la Data offre un aperçu fascinant des défis techniques et des opportunités offertes par l'IA au service de la mobilité.
Merci encore à Maël pour son temps, et cet échange passionnant !
Flint est une ESN spécialisée Tech, Data et surtout IA. Les flinters co-construisent avec vous des solutions IA qui transforment vos données en avantage concurrentiel, vous donnant une longueur d'avance sur le marché.
De l’acculturation des équipes et Codir, au développement de Poc, jusqu’à l’industrialisation, nous vous accompagnons à chaque étape clé, de vos projets.
Notre sujet clé du moment : le MCP, Model Context Protocol d’Anthropic.