Apple lance une IA pour décrire le monde en temps réel ?

Update: 2025-09-09

Description

Apple avance ses pions dans l’intelligence artificielle, mais comme souvent, sans faire de bruit. Plus tôt cette année, la firme a présenté FastVLM, un modèle vision-langage, désormais disponible sur la plateforme Hugging Face. Son principe est simple : analyser une image et la décrire en texte. Autrement dit, l’inverse d’un générateur d’images.

Pour les curieux, plusieurs versions sont proposées. La plus complète compte 7 milliards de paramètres, mais il existe aussi des modèles allégés à 1,5 et 0,5 milliard, ce dernier pouvant même être testé directement depuis son navigateur, sans rien installer. Par défaut, FastVLM décrit en une phrase ce qu’il voit via la webcam, mais il peut aller plus loin : identifier une émotion sur un visage, lire le texte d’une affiche ou reconnaître un objet précis.

Techniquement, FastVLM peut tourner sur différents ordinateurs, mais il a été optimisé pour les processeurs Apple. Résultat : sur un Mac, il est annoncé 85 fois plus rapide que d’autres modèles équivalents. Reste la grande question : pourquoi Apple développe-t-il ce type d’IA ? Les usages potentiels sont multiples. Dans un casque Vision Pro, elle pourrait enrichir l’expérience en réalité mixte. Sur iPhone, elle servirait à scanner le contenu d’un frigo pour proposer des recettes, ou encore à traduire des panneaux à l’étranger. Mais la vraie révolution se joue peut-être ailleurs : combinée à des lunettes intelligentes, cette technologie pourrait transformer le quotidien des personnes malvoyantes, en leur décrivant en temps réel ce qui les entoure. Apple travaillerait déjà sur ses propres lunettes connectées, prévues pour 2026 ou 2027. Avec FastVLM, la marque prépare discrètement le terrain pour une IA capable de voir… et de rendre nos vies un peu plus simples.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.