La géopolitique de l’intelligence artificielle est débattue presque exclusivement comme un problème de production : qui fabrique les puces, construit les centres de données, entraîne les modèles de pointe. L’exposition la plus immédiate, pour la plupart des pays, se situe ailleurs, dans le flux — appelons-le le problème du flux de tokens. La perturbation du détroit d’Ormuz en 2026 a rappelé la version de cette leçon héritée du siècle pétrolier ; cette note opère le même geste analytique pour l’IA.
Le marché des LLM présente un paradoxe. Les catalogues de modèles se diversifient et le prix des tokens de base s’est effondré, d’environ 600 fois depuis 2020 (Du, 2026). Pourtant, le flux de dollars d’API des entreprises s’est davantage concentré : environ 88 % aboutissent chez trois fournisseurs américains (Menlo Ventures, 2025). L’erreur serait de lire le premier fait comme une dépendance qui s’efface. Le levier s’est déplacé — de la production de modèles vers le passage récurrent des requêtes d’inférence par des points de passage opposables : éligibilité du compte, règles de pays autorisés, rails de paiement, limites de débit, plateformes de routage, contrats. Ces points de passage sont documentés, et non hypothétiques : les fournisseurs publient les listes de pays, et les moyens de paiement extérieurs à ces listes constituent un motif de blocage.
L’angle mort de la production
En février 2026, la leçon que le siècle pétrolier a enseignée à maintes reprises a cessé d’être un rappel pour devenir un événement. Le détroit d’Ormuz — par lequel transitait environ un cinquième de la consommation mondiale de liquides pétroliers début 2025 — a été perturbé par un conflit régional. Le contrôle du flux, ces points étroits qu’une marchandise doit franchir, confère un levier que la propriété de la production ne capture pas, et aucune statistique côté production n’avait prédit ce que produirait une perturbation du détroit.
Le débat sur les politiques d’IA de 2024–2026 a été, à de rares exceptions près, un débat sur la production. Les contrôles à l’exportation visent les puces ; les stratégies nationales financent des grappes de calcul et des modèles fondateurs souverains ; les offres d’« IA souveraine » associent centres de données locaux et modèles hébergés localement. La théorie sous-jacente de la vulnérabilité est de forme extractive : qui possède les moyens de produire l’intelligence détient le pouvoir. Le levier se situe ailleurs — dans les points de passage que chaque requête d’inférence hébergée doit franchir (Figure 1).
Considérons une telle requête. Une jeune pousse de trois personnes à Tunis a bâti un outil de traitement documentaire pour des clients régionaux ; chaque tâche envoie quelques centaines de milliers de tokens à un modèle de pointe et reçoit la réponse en flux continu. Avant qu’un seul token ne revienne, la requête doit franchir une série de points de passage, dont aucun n’est sous le contrôle de la jeune pousse. Le compte doit exister, ce qui suppose que le fournisseur desserve la Tunisie. Il doit être approvisionné — une contrainte ferme en Tunisie, où les cartes en dinars ne sont pas autorisées pour les transactions en devises et où ni Stripe ni Adyen n’enrôlent d’entreprises où que ce soit en Afrique du Nord. La requête doit s’inscrire dans un palier de limite de débit qui progresse avec les paiements cumulés. Le modèle doit être disponible dans la juridiction ; l’usage doit se conformer à des conditions définies par un droit étranger. Ce n’est qu’alors que la requête voyage — passerelle nationale, câble sous-marin, nœud de périphérie européen, réseau privé du fournisseur — et la route elle-même n’est pas garantie. Chaque point de passage est ordinaire, justifiable et ouvert la plupart du temps. C’est précisément ce que le siècle pétrolier enseigne sur les points de passage : leur politique reste invisible jusqu’à ce que le flux compte plus que d’ordinaire, ou que les intérêts du gardien changent.
Un corpus de travaux croissant complique le cadre productiviste : une souveraineté de l’IA sur toute la pile est structurellement irréalisable pour presque tout pays (Tanner, Kerry, et al., 2026) ; le contrôle de la couche de déploiement repose sur des dépendances sous contrôle américain — le « déficit de souveraineté » (Chavez, 2026) ; les fournisseurs qui revendent de l’« IA souveraine » aux États la définissent selon leurs propres termes (Yew et al., 2026). Ce qu’aucune ne fournit, c’est un compte rendu systématique du flux lui-même : comment l’inférence circule, par quels canaux, sous le contrôle de qui, avec quelles possibilités de réacheminement.
Figure 1. Une requête d’inférence, de multiples points de passage (animation). Un token ne voyage pas comme le pétrole, mais chaque requête d’inférence hébergée franchit des points de passage opposables — règles de pays autorisés, rails de paiement, limites de débit, contrats. L’animation suit une requête à travers sept étapes et montre ce qui se produit lorsqu’un point de passage se referme. Schéma ; le placement des points de passage est illustratif.
La forme du flux
La méthode vient de l’économie politique de l’énergie. Carbon Democracy de Timothy Mitchell (2011) a montré que les possibilités politiques des ères du charbon et du pétrole étaient façonnées moins par qui possédait la ressource que par la forme matérielle de son flux. Le charbon circulait par des réseaux ramifiés, avec des points de passage où un travail concentré pouvait interrompre le flux ; le pétrole a été reconçu autour de cette vulnérabilité — fluide, capitalistique, capable de contourner les blocages. La transition n’a pas éliminé la concentration ; elle l’a relocalisée, de la mine et du terminal ferroviaire vers les cartels d’État et d’entreprises qui gouvernent routes et prix. Trois outils se transposent : la forme du flux (le canal, et non le producteur, est l’unité d’analyse), le point de passage (un point de passage ne devient politique que lorsque des acteurs peuvent agir dessus), et les affordances politiques (ce que la forme d’une infrastructure permet de faire à des acteurs diversement positionnés).
Appliquée à l’histoire de l’informatique, la méthode révèle trois régimes, chacun avec une nouvelle couche de pouvoir concentré (Figure 2). Le régime internet (années 1990–2000) vendait la connectivité sur un maillage redondant à protocoles ouverts ; des points de passage existaient mais étaient peu activés. Le régime cloud (années 2010) a déplacé la concentration vers l’hébergement — qui fait tourner vos charges, sous quels contrats et juridictions (Srnicek, 2017 ; Narayan, 2022). Le régime LLM (2022–présent) vend le raisonnement algorithmique lui-même, mesuré au token, circulant d’une application via un agrégateur à un modèle hébergé et retour, chaque étape régie par des conditions d’API, des limites de débit, des règles géographiques, des rails de paiement et un contrat.
L’entraînement reste un point de passage stratégique — les contrôles à l’exportation de puces le prouvent. Mais l’entraînement est épisodique tandis que l’inférence hébergée est récurrente : chaque requête, chaque heure, doit franchir un compte, une passerelle, un rail de paiement, une limite de débit et une règle juridictionnelle. Ce passage récurrent crée une couche de levier supplémentaire — continue, fine, contractuelle — que la politique côté production ne capture pas.
Comment circule réellement l’inférence
La mesure la plus directe du levier, c’est là où l’argent aboutit. L’enquête entreprises de fin 2025 de Menlo Ventures estime les dépenses d’API LLM à Anthropic 40 %, OpenAI 27 %, Google 21 % — un total combiné de 88 % (Figure 3), les 12 % restants répartis entre l’écosystème Llama de Meta, Cohere, Mistral et une longue traîne. Et ce n’est pas passager : la part combinée des trois premiers est passée d’environ 69 % en 2023, alors même que la tête changeait de mains au sein de l’oligopole. Le roulement du leadership au sommet d’une concentration durable est précisément ce qui distingue un point de passage structurel d’une position de marché temporaire. La concentration triangule : l’enquête de janvier 2026 d’a16z auprès des DSI place indépendamment ~90 % des dépenses chez les trois mêmes fournisseurs, tout en inversant l’ordre. Ordre contesté, concentration admise (~88–92 %).
Les prix, eux, se sont effondrés — mais inégalement. Du (2026) estime une baisse d’environ 600 fois du prix des tokens depuis 2020, les paliers de base étant divisés par deux tous les un à un an et demi tandis que le prix du palier de pointe ne montre aucune décroissance régulière, soutenu par une prime au raisonnement (Figure 4). Le sens politique est à double tranchant : l’intelligence de base devient radicalement bon marché, une bonne nouvelle pour les importateurs de tokens, mais le raisonnement de pointe — le palier dont les applications à forte valeur ont besoin — se comporte comme un bien différencié dont les vendeurs, largement les mêmes que les entreprises captant les dollars, ont jusqu’ici maintenu le prix. La dépendance au palier de pointe n’est pas érodée par la déflation.
La baisse des prix ressemble à une baisse de la dépendance ; c’est l’inverse qui est plus proche de la vérité. Lorsqu’un intrant utile devient moins cher, les économies n’empochent pas les économies réalisées — elles enracinent l’intrant plus profondément. Le mécanisme est le passage de la conversation aux agents. Un échange conversationnel consomme des milliers de tokens, au rythme humain ; une charge agentique en consomme des millions par tâche, au rythme machine, en longues boucles autonomes. À mesure que les prix unitaires chutaient, la consommation totale grimpait fortement : les dépenses d’API de modèles des entreprises ont plus que doublé en huit mois pour atteindre 8,4 milliards de dollars à la mi-2025, et les tokens via OpenRouter ont été multipliés par environ dix en 2025. Cela charge le flux. La panne d’un agent conversationnel est un désagrément ; la panne d’un agent de production arrête des flux de travail. La déflation n’érode pas cette dépendance — elle en finance l’expansion.
Le marché engendre deux statistiques qui semblent contradictoires (Figure 5). Le HHI du catalogue large d’inférence a fortement baissé en trois ans — franchissant le seuil de « fortement concentré » à « modérément concentré » à mesure que des entrants à poids ouverts diversifiaient l’offre — tandis que 88 % des dollars des entreprises affluent toujours vers trois firmes. Ces deux mesures mesurent des couches différentes. L’indice en baisse reflète un bazar dynamique de modèles accessibles aux expérimentateurs ; les 88 % reflètent l’achat par les entreprises. Un indice en baisse à la première couche ne dit rien du levier à la seconde.
La structure suit une chaîne d’approvisionnement à trois paliers (Demirer et al., 2025) : les créateurs de modèles au sommet, là où se concentrent les dollars ; les fournisseurs d’inférence (Azure, Cerebras, Together AI, Groq) exploitant un calcul intensément concurrentiel ; et les agrégateurs (OpenRouter et ses pairs) acheminant la demande — à la fois outil de résilience et nouveau point unique de défaillance. La dépendance est plus collante que ne le suggère la diversité du catalogue : seuls 11 % des développeurs interrogés ont changé de fournisseur principal sur l’année jusqu’à mi-2025, et la part de tokens des modèles ouverts reste inférieure à 30 %. La redondance croît ; la substituabilité — changer de fournisseur en production, vite et sans perte de capacité — reste à la traîne.
La « domination américaine de l’IA » confond au moins trois flux aux géographies et points de passage différents (Figure 6) : un flux grand public acheminé via une poignée d’applications américaines (points de passage : magasins d’applications, rails de paiement grand public, politiques de contenu) ; un flux développeurs nettement plus international — plus de la moitié de l’usage d’OpenRouter provient de l’extérieur des États-Unis — filtré par la disponibilité géographique des API, les rails de paiement développeurs et les limites de débit ; et un flux entreprises concentré en dollars et filtré par les contrats, la résidence des données et les régimes de conformité. Une politique qui traite les trois comme un seul diagnostiquera mal l’exposition.
Où la région MENA est exposée
La région MENA n’est pas un marché unique de l’IA. Elle comprend des États du Golfe investissant dans le calcul et des modèles nationaux (le pôle côté production) ; des économies de développeurs à revenu intermédiaire qui importent surtout des tokens (la préoccupation première ici) ; des contextes sous sanctions ou affectés par les conflits, où les règles d’accès jouent différemment ; et des acteurs du secteur public confrontés à des questions de marchés publics et de continuité. La littérature régionale s’est concentrée sur la gouvernance de la production, l’éthique et la pénalité structurelle de l’arabe sous une tokenisation centrée sur l’anglais — mais a laissé le flux de consommation largement inexploré.
À la couche fournisseur, en juin 2026, quinze des dix-neuf juridictions de la région MENA figurent sur les quatre grandes listes positives de pays américaines ; le Yémen et le Soudan figurent chacun sur trois ; l’Iran et la Syrie ne figurent sur aucune, et Mistral, le fournisseur européen, nomme les deux mêmes exclusions — la divergence UE/États-Unis que beaucoup anticipent n’existe pas à cette couche. La couche paiement est la contrainte la plus large : Stripe enrôle des entreprises dans exactement un pays de la région MENA (les Émirats arabes unis), Adyen dans aucun, et le Maghreb et le Levant opèrent sous des restrictions documentées des banques centrales sur l’usage international des cartes — l’interdiction de fait de l’Algérie, le quota de la Libye, l’exclusion par la Tunisie des cartes en dinars des transactions en devises, le régime de « dollars frais » du Liban. Comme chaque grand fournisseur filtre le débit d’API derrière des paliers de paiement cumulés, l’accès aux rails de paiement est un point de passage empilé sur la disponibilité formelle. La Palestine est le cas distinctif : rails techniquement fonctionnels, et pourtant chaque grand processeur exclut les résidents de Cisjordanie et de Gaza.
L’Iran est la preuve d’existence de la constriction corrélée — simultanément absent de toute liste de fournisseur, exclu de tout rail de paiement et interdit par la réglementation des sanctions : une constriction aux trois couches à la fois, par la loi. La Syrie est le cas transitionnel instructif : les sanctions américaines globales ont été révoquées en juillet 2025 et le Caesar Act abrogé en décembre, et pourtant la Syrie reste absente de la liste des pays pris en charge par tous les grands fournisseurs. Les points de passage ont survécu à leur justification déclarée.
Le risque stratégique pour les importateurs non sanctionnés est une corrélation d’un type plus doux. Les instruments juridictionnels méritent de la précision plutôt que de l’alarme : en vertu du CLOUD Act, l’exposition suit la juridiction sur le fournisseur, et non l’emplacement du serveur — plus étroit que sa réputation, mais réel. Les contrôles à l’exportation sur l’inférence sont un canal prévisible, pas encore un régime contraignant. Et la couche du flux a un substrat physique : lorsque des câbles sous-marins ont été sectionnés près de Djeddah en septembre 2025, sur un corridor portant ~17 % du trafic intercontinental, la connectivité s’est dégradée du Golfe à l’Asie du Sud en quelques heures — et l’inférence hébergée emprunte les mêmes câbles. Le réacheminement a absorbé le choc en quelques jours, ce que le pétrole ne peut pas. Le propos est que les importations de tokens de la région MENA transitent par un ensemble étroit de corridors physiques et un ensemble étroit de points de passage juridictionnels, gouvernés par des firmes et des États qui se recoupent. Le passage corrélé est la condition héritée de la région ; le flux de tokens en est la couche la plus récente.
La réponse côté production — le calcul souverain — ne traite rien de tout cela. Une grappe de GPU nationale ne maintient pas approvisionné le compte d’API d’une jeune pousse du Caire ou de Tunis, ne change pas le droit applicable au contrat cloud d’une entreprise de Riyad, et ne fournit pas de repli de qualité de pointe lorsque l’accès se resserre. L’exposition est du côté du flux ; la dépense est du côté de la production.
La résilience plutôt que l’autosuffisance
L’analyse de la forme du flux converge avec la position de l’« interdépendance gérée » (Tanner, Kerry, et al., 2026) mais l’affine : gérer l’interdépendance exige de cartographier les flux, et pas seulement les fournisseurs. Les recommandations — segmentées par public dans la carte ci-dessus — sont ordonnées par faisabilité et commencent délibérément par ce qu’un seul ministère peut entreprendre dans les quatre-vingt-dix jours, car les données de dépendance préalables n’existent pas encore.
La fenêtre des poids ouverts est abordable mais conditionnelle : les modèles à poids ouverts ne sont une ressource de résilience que lorsque les poids sont effectivement détenus, servis, testés et intégrés avant une crise. Le constat des 90 % d’économie rend une pile de repli testée abordable ; la part de consommation inférieure à 30 % et le taux de bascule de 11 % mesurent le chemin de test qui sépare la fenêtre de prix d’un repli réel. Pour le programme des infrastructures critiques, l’échelle des instruments va de la visibilité (inventaires de dépendances, signalement d’incidents) à la continuité (attentes de service, continuité de paiement, portabilité) jusqu’aux arrangements internationaux — l’analogue des cadres de sécurité énergétique bâtis après les chocs pétroliers.
Chaque transition infrastructurelle des trois dernières décennies a relocalisé la couche où se concentre le contrôle du flux computationnel : de la connectivité réseau, à l’hébergement de plateforme, à la couche modèle-API qui mesure désormais le raisonnement machine. La conversation politique actuelle, obnubilée par la production de cette capacité, analyse les puits et ignore le détroit — l’année même où un détroit réel a été perturbé et où une simple menace annoncée a réacheminé la navigation. Pour la plupart des pays, la question pertinente n’est pas comment produire l’intelligence ? mais comment la maintenir en circulation à des conditions acceptables quand les conditions changent ? C’est une question de résilience, à laquelle on peut répondre avec des instruments qui existent aujourd’hui, à commencer par une carte de dépendance que tout ministère pourrait amorcer ce trimestre.
Importer l'intelligence — note intégrale (PDF) L'argument complet, l'appareil statistique, les Notes et la bibliographie intégrale. Sous licence CC BY 4.0.Version d’archive citable faisant foi : doi.org/10.5281/zenodo.20677200 (Zenodo).