Ils se sont heurtés à un problème épineux : malgré des investissements très médiatisés dans la recherche sur l'IA, le géant des médias sociaux a tardé à adopter du matériel et des systèmes logiciels coûteux adaptés à l'IA pour son activité principale, entravant sa capacité à suivre le rythme de l'innovation à grande échelle alors même qu'il s'appuie de plus en plus sur l'IA pour soutenir sa croissance, selon le mémo, les déclarations de l'entreprise et les entretiens avec 12 personnes au fait des changements, qui ont parlé sous couvert d'anonymat pour discuter de questions internes à l'entreprise.

"Nous avons une lacune importante dans notre outillage, nos flux de travail et nos processus lorsqu'il s'agit de développer pour l'IA. Nous devons investir massivement dans ce domaine", indique le mémo, rédigé par le nouveau responsable de l'infrastructure Santosh Janardhan, qui a été publié sur le forum de discussion interne de Meta en septembre et qui est rapporté aujourd'hui pour la première fois.

La prise en charge des travaux sur l'IA nécessiterait que Meta "modifie fondamentalement la conception de son infrastructure physique, ses systèmes logiciels et son approche de la fourniture d'une plateforme stable", ajoute le mémo.

Depuis plus d'un an, Meta s'est engagé dans un projet d'envergure visant à mettre en forme son infrastructure d'IA. Bien que l'entreprise ait reconnu publiquement qu'elle "rattrapait un peu son retard" sur les tendances en matière de matériel d'IA, les détails de la refonte - y compris les réductions de capacité, les changements de direction et l'abandon d'un projet de puce d'IA - n'ont pas été rapportés auparavant.

Interrogé sur le mémo et la restructuration, le porte-parole de Meta, Jon Carvill, a déclaré que la société "a fait ses preuves dans la création et le déploiement d'une infrastructure de pointe à grande échelle, combinée à une expertise approfondie dans la recherche et l'ingénierie de l'IA".

"Nous sommes confiants dans notre capacité à poursuivre l'expansion des capacités de notre infrastructure pour répondre à nos besoins à court et à long terme, alors que nous apportons de nouvelles expériences alimentées par l'IA à notre famille d'applications et de produits de consommation", a déclaré Jon Carvill. Il n'a pas voulu dire si Meta avait abandonné sa puce d'IA.

M. Janardhan et d'autres dirigeants n'ont pas donné suite aux demandes d'entretien formulées par l'intermédiaire de l'entreprise.

La refonte a fait grimper les dépenses d'investissement de Meta d'environ 4 milliards de dollars par trimestre, selon les déclarations de l'entreprise - soit près du double de ses dépenses à partir de 2021 - et l'a amenée à suspendre ou à annuler la construction de centres de données précédemment prévus dans quatre endroits.

Graphique : Augmentation des dépenses de Meta - https://www.reuters.com/graphics/METAPLATFORMS-ARTIFICIALINTELLIGENCE/dwvkdldgkpm/chart.png

Ces investissements ont coïncidé avec une période de graves difficultés financières pour Meta, qui licencie des employés depuis novembre à une échelle jamais vue depuis l'effondrement de la bulle Internet.

Entre-temps, ChatGPT d'OpenAI, soutenu par Microsoft, est devenu l'application grand public à la croissance la plus rapide de l'histoire après son lancement le 30 novembre, déclenchant une course aux armements parmi les géants de la technologie pour lancer des produits utilisant ce que l'on appelle l'IA générative, qui, au-delà de la reconnaissance de modèles dans les données comme les autres IA, crée un contenu écrit et visuel semblable à celui des humains en réponse à des invites.

L'IA générative engloutit des quantités considérables de puissance informatique, ce qui amplifie l'urgence de la course à la capacité de Meta, ont déclaré cinq des sources.

SE LAISSER DISTANCER

Selon ces cinq sources, l'une des principales sources de problèmes est l'adoption tardive par Meta de l'unité de traitement graphique, ou GPU, pour les travaux d'IA.

Les puces GPU sont particulièrement bien adaptées au traitement de l'intelligence artificielle, car elles peuvent exécuter un grand nombre de tâches simultanément, réduisant ainsi le temps nécessaire pour traiter des milliards de données.

Toutefois, les GPU sont également plus chers que les autres puces, le fabricant de puces Nvidia Corp contrôlant 80 % du marché et conservant une longueur d'avance sur les logiciels d'accompagnement, ont indiqué les sources.

Nvidia n'a pas répondu à une demande de commentaire pour cet article.

Au lieu de cela, jusqu'à l'année dernière, Meta a largement exécuté des charges de travail d'IA en utilisant la flotte d'unités centrales de traitement (CPU) de l'entreprise, la puce de référence du monde informatique, qui a rempli les centres de données pendant des décennies, mais qui n'est pas très performante en matière d'IA.

Selon deux de ces sources, l'entreprise a également commencé à utiliser sa propre puce personnalisée qu'elle avait conçue en interne pour l'inférence, un processus d'IA dans lequel les algorithmes formés sur d'énormes quantités de données émettent des jugements et génèrent des réponses à des invites.

D'ici 2021, cette double approche s'est avérée plus lente et moins efficace qu'une approche basée sur les GPU, qui étaient également plus flexibles dans l'exécution de différents types de modèles que la puce de Meta, ont déclaré les deux personnes.

Meta a refusé de commenter les performances de sa puce d'IA.

Alors que Zuckerberg oriente l'entreprise vers le métavers - un ensemble de mondes numériques rendus possibles par la réalité augmentée et virtuelle -, le manque de capacité ralentit sa capacité à déployer l'IA pour répondre aux menaces, telles que la montée en puissance du rival des médias sociaux TikTok et les changements de confidentialité des publicités menés par Apple, ont déclaré quatre des sources.

Ces trébuchements ont attiré l'attention de Peter Thiel, ancien membre du conseil d'administration de Meta, qui a démissionné au début de l'année 2022, sans donner d'explication.

Lors d'une réunion du conseil d'administration avant son départ, Thiel a dit à Zuckerberg et à ses cadres qu'ils étaient complaisants à l'égard de l'activité principale des médias sociaux de Meta tout en se concentrant trop sur le métavers, ce qui, selon lui, rendait l'entreprise vulnérable au défi de TikTok, d'après deux sources familières avec l'échange.

Meta a refusé de commenter la conversation.

RATTRAPER LE RETARD

Après avoir mis fin au déploiement à grande échelle de la puce d'inférence personnalisée de Meta, qui était prévu pour 2022, les dirigeants ont fait marche arrière et ont passé des commandes cette année-là pour des milliards de dollars de GPU Nvidia, a déclaré une source.

Meta a refusé de commenter la commande.

À ce moment-là, Meta avait déjà plusieurs longueurs de retard sur ses pairs, comme Google, qui avait commencé à déployer sa propre version personnalisée des GPU, appelée TPU, en 2015.

Au printemps, les dirigeants ont également entrepris de réorganiser les unités d'IA de Meta, en nommant deux nouveaux responsables de l'ingénierie, dont Janardhan, l'auteur du mémo de septembre.

Plus d'une douzaine de cadres ont quitté Meta au cours de ce bouleversement qui a duré des mois, selon leurs profils LinkedIn et une source familière avec les départs, ce qui représente un changement presque total de la direction de l'infrastructure d'IA.

Meta a ensuite commencé à réorganiser ses centres de données pour accueillir les nouveaux GPU, qui consomment plus d'énergie et produisent plus de chaleur que les CPU, et qui doivent être regroupés en grappes étroites avec un réseau spécialisé entre eux.

Graphique : État des centres de données de Meta aux États-Unis - https://www.reuters.com/graphics/METAPLATFORMS-ARTIFICIALINTELLIGENCE/mopakdkmzpa/chart.png

Les installations avaient besoin d'une capacité de réseau 24 à 32 fois supérieure et de nouveaux systèmes de refroidissement liquide pour gérer la chaleur des clusters, ce qui a nécessité de les "repenser entièrement", selon le mémo de Janardhan et quatre sources familières avec le projet, dont les détails n'ont pas été divulgués précédemment.

Au fur et à mesure que le travail avançait, Meta a planifié en interne le développement d'une nouvelle puce plus ambitieuse, qui, comme un GPU, serait capable d'entraîner des modèles d'IA et d'effectuer des inférences. Le projet, qui n'a pas été signalé auparavant, devrait s'achever vers 2025, selon deux sources.

M. Carvill, porte-parole de Meta, a déclaré que la construction de centres de données, qui avait été interrompue pendant la transition vers les nouveaux modèles, reprendrait dans le courant de l'année. Il s'est refusé à tout commentaire sur le projet de puce.

ÉCHANGES

Tout en augmentant sa capacité de GPU, Meta n'a pour l'instant pas eu grand-chose à montrer face à des concurrents tels que Microsoft et Google qui lancent publiquement des produits commerciaux d'IA générative.

Susan Li, directrice financière, a reconnu en février que Meta ne consacrait pas une grande partie de ses capacités de calcul actuelles à des travaux génératifs, déclarant que "fondamentalement, toute notre capacité d'IA est consacrée aux publicités, aux flux et aux Reels", son format vidéo court de type TikTok qui est populaire auprès des jeunes utilisateurs.

Selon quatre des sources, Meta n'a pas donné la priorité à la construction de produits d'IA générative avant le lancement de ChatGPT en novembre. Même si son laboratoire de recherche FAIR (Facebook AI Research) a publié des prototypes de la technologie depuis la fin 2021, l'entreprise ne s'est pas attachée à convertir ses recherches bien connues en produits, ont-elles déclaré.

Cette situation est en train de changer à mesure que l'intérêt des investisseurs monte en flèche. En février, Mark Zuckerberg a annoncé la création d'une nouvelle équipe de haut niveau spécialisée dans l'IA générative, qui, selon lui, devrait "donner un coup de fouet" aux travaux de l'entreprise dans ce domaine.

Andrew Bosworth, directeur de la technologie, a également déclaré ce mois-ci que l'IA générative était le domaine auquel lui et Zuckerberg consacraient le plus de temps, prévoyant que Meta sortirait un produit cette année.

Deux personnes familières avec la nouvelle équipe ont déclaré que son travail en était à ses débuts et se concentrait sur la construction d'un modèle de base, un programme de base qui pourra ensuite être affiné et adapté à différents produits.

M. Carvill, porte-parole de Meta, a déclaré que l'entreprise construisait des produits d'IA générative au sein de différentes équipes depuis plus d'un an. Il a confirmé que le travail s'est accéléré dans les mois qui ont suivi l'arrivée de ChatGPT.