Briefing

Importer l'intelligence : l'angle mort des stratégies de souveraineté de l'IA

Une analyse du flux de tokens des LLM : la dépendance se loge dans la couche du flux — les points de passage de l'inférence — et non chez les producteurs de modèles.

  • governance
  • economics
  • north-africa
  • global-south

Constat

La dépendance à l'IA se concentre moins chez les producteurs de modèles que dans la couche du flux — les points de passage que chaque requête d'inférence doit franchir — hors de portée des dépenses de souveraineté axées sur la production.

Recommandation

Les États importateurs de tokens devraient viser la résilience plutôt que l'autosuffisance : cartographier les dépendances par type de flux, bâtir une substituabilité testée et traiter le routage, les agrégateurs et les rails de paiement comme des infrastructures critiques.

Principaux constats

  • Les dépenses d'API LLM des entreprises sont concentrées : environ 88 % vont à trois fournisseurs américains (Anthropic, OpenAI, Google) fin 2025, alors même que le catalogue de modèles se diversifie et que le prix des tokens de base a chuté d'environ 600 fois depuis 2020.
  • Le levier décisif n'est plus la production de modèles mais le passage récurrent des requêtes d'inférence par des points de passage opposables : éligibilité du compte, règles de pays autorisés, rails de paiement, limites de débit, plateformes de routage et contrats.
  • La dépendance à l'IA n'est pas un flux mais trois — grand public, développeurs, entreprises — chacun avec ses propres points de passage ; les confondre revient à mal diagnostiquer l'exposition.
  • La baisse du prix des tokens approfondit la dépendance au lieu de la réduire : des tokens moins chers rendent les charges agentiques, gourmandes en inférence, porteuses — si bien qu'une interruption arrête désormais la production au lieu de simplement gêner une conversation.
  • Pour les économies importatrices de tokens, dont la majeure partie de la région MENA, l'exposition se concentre du côté de la consommation — rails de paiement, points de passage juridictionnels et corridors physiques partagés — hors de portée des dépenses de calcul souverain axées sur la production.

Recommandations

Pour les décideurs publics

Intervention 1 — Cartographier les dépendances aux tokens par type de flux. Pilote : ministère du numérique / office national des statistiques. 90 premiers jours : inventorier les systèmes d'IA du secteur public par fournisseur, contrat, rail de paiement, juridiction et criticité. 12–24 mois : un rapport national annuel de dépendance aux tokens. Faisabilité : élevée — un exercice de bureau dans le cadre des pouvoirs existants.

Intervention 2 — Bâtir la substituabilité, pas la redondance. Pilote : autorité des marchés publics + agence de cybersécurité. 90 premiers jours : insérer des clauses de portabilité fournisseur dans les nouveaux marchés publics d'IA ; définir des seuils de dégradation par fonction. 12–24 mois : exercices de bascule pour les fonctions critiques, sur le modèle des tests de résistance du secteur financier. Indicateur : temps de bascule et perte de qualité mesurée.

Intervention 4 — Traiter la couche du flux comme une infrastructure critique. Pilote : agence des infrastructures critiques + régulateur des paiements. 90 premiers jours : déclaration obligatoire de dépendance pour les déploiements d'importance systémique ; signalement des incidents de panne d'API et de coupure. 12–24 mois : exigences de continuité de service pour les agrégateurs et les rails de paiement ; accords régionaux d'entraide.

Pour les développeurs

Intervention 3 — Exploiter la fenêtre de prix des poids ouverts via une capacité de service partagée et gouvernée. Les modèles open source sont environ 90 % moins chers que les modèles fermés à niveau d'intelligence mesuré équivalent (Demirer et al., 2025), mais la résilience exige la catégorie plus stricte des *poids* ouverts — des paramètres détenus, servis, testés et intégrés avant une crise, et non simplement disponibles.

Concrètement : maintenir une pile de repli testée, avec des seuils de perte de qualité acceptables par fonction définis à l'avance et validés lors d'exercices ; pratiquer le multi-homing plutôt que le mono-fournisseur ; et traiter les prompts, les comportements affinés (fine-tuning) et l'échafaudage agentique comme un verrouillage qu'aucune comparaison de prix ne capture.

Pour les chercheurs

La note adapte la méthode de la « forme du flux » de Timothy Mitchell (Carbon Democracy, 2011) à l'infrastructure informationnelle, à travers trois régimes — internet, cloud, LLM — et isole le token d'inférence comme objet d'analyse. Les matrices de disponibilité et de paiement, le jeu de données de prix des tokens et les scripts des figures sont maintenus dans le dépôt de recherche public, pour réplication et extension.

Questions ouvertes : réplication indépendante de la mesure de concentration pondérée en dollars (une seule estimation ponctuelle publiée existe) ; la relation entre la concentration estimée du catalogue et la concentration en dollars à la couche entreprise ; et la mesure longitudinale de la substituabilité comme distincte de la redondance.

Pour la société civile

Le risque systémique pour les importateurs non sanctionnés est la constriction corrélée : de nombreuses API de modèles, contrats cloud, magasins d'applications et rails de paiement sont gouvernés par un petit ensemble d'entreprises et de juridictions ; un choc de sanctions, de contrôle des exportations, de lutte contre la fraude ou de conformité pourrait resserrer ensemble les flux grand public, développeurs et entreprises — un accès perdu comme effet secondaire de décisions de conformité, sans qu'aucun acteur ne vise une coupure générale.

Une lacune de transparence concrète mérite d'être nommée : il n'existe aucun canal de signalement des incidents pour les interruptions d'accès à l'IA au niveau du paiement ou des politiques. Les fournisseurs documentent leurs points de passage, mais personne n'enregistre quand et où ils se referment.

Méthodologie

Analyse d'économie politique diachronique adaptant la méthode de la « forme du flux » de Timothy Mitchell à l'infrastructure informationnelle, à travers trois régimes (internet, cloud, LLM). Ancrages empiriques : enquêtes entreprises de Menlo Ventures (2025), jeu de données de prix de Du (2026), Demirer et al. (NBER WP 34608, 2025), OpenRouter State of AI 2025, ainsi qu'une matrice de disponibilité par fournisseur et une matrice des rails de paiement couvrant 19 juridictions de la région MENA. Proximité avec des fournisseurs signalée au point d'usage. Toutes les affirmations sensibles au temps sont à jour au 12 juin 2026.

Questions auxquelles ce briefing répond

  • Où se concentre réellement le levier sur l'IA — dans la production de modèles ou dans le flux de l'inférence ?
  • Pourquoi un marché des LLM qui se diversifie et dont les prix baissent laisse-t-il les pays consommateurs plus dépendants, et non moins ?
  • Quels points de passage distincts gouvernent les flux d'IA grand public, développeurs et entreprises ?
  • À quelle exposition spécifique les économies importatrices de tokens de la région MENA font-elles face, que les dépenses de calcul souverain ne traitent pas ?
  • Que peut concrètement faire un État importateur de tokens, dès les 90 premiers jours, avec les instruments qui existent aujourd'hui ?

Télécharger le PDF →

Révisions

  • — Édition web v1.0 — condensée à partir de la version d'archive faisant foi (DOI Zenodo 10.5281/zenodo.20677200) ; remplace la v2 (The Flow Problem). Analyse inchangée sur le fond.

La géopolitique de l’intelligence artificielle est débattue presque exclusivement comme un problème de production : qui fabrique les puces, construit les centres de données, entraîne les modèles de pointe. L’exposition la plus immédiate, pour la plupart des pays, se situe ailleurs, dans le flux — appelons-le le problème du flux de tokens. La perturbation du détroit d’Ormuz en 2026 a rappelé la version de cette leçon héritée du siècle pétrolier ; cette note opère le même geste analytique pour l’IA.

Le marché des LLM présente un paradoxe. Les catalogues de modèles se diversifient et le prix des tokens de base s’est effondré, d’environ 600 fois depuis 2020 (Du, 2026). Pourtant, le flux de dollars d’API des entreprises s’est davantage concentré : environ 88 % aboutissent chez trois fournisseurs américains (Menlo Ventures, 2025). L’erreur serait de lire le premier fait comme une dépendance qui s’efface. Le levier s’est déplacé — de la production de modèles vers le passage récurrent des requêtes d’inférence par des points de passage opposables : éligibilité du compte, règles de pays autorisés, rails de paiement, limites de débit, plateformes de routage, contrats. Ces points de passage sont documentés, et non hypothétiques : les fournisseurs publient les listes de pays, et les moyens de paiement extérieurs à ces listes constituent un motif de blocage.

L’angle mort de la production

En février 2026, la leçon que le siècle pétrolier a enseignée à maintes reprises a cessé d’être un rappel pour devenir un événement. Le détroit d’Ormuz — par lequel transitait environ un cinquième de la consommation mondiale de liquides pétroliers début 2025 — a été perturbé par un conflit régional. Le contrôle du flux, ces points étroits qu’une marchandise doit franchir, confère un levier que la propriété de la production ne capture pas, et aucune statistique côté production n’avait prédit ce que produirait une perturbation du détroit.

Le débat sur les politiques d’IA de 2024–2026 a été, à de rares exceptions près, un débat sur la production. Les contrôles à l’exportation visent les puces ; les stratégies nationales financent des grappes de calcul et des modèles fondateurs souverains ; les offres d’« IA souveraine » associent centres de données locaux et modèles hébergés localement. La théorie sous-jacente de la vulnérabilité est de forme extractive : qui possède les moyens de produire l’intelligence détient le pouvoir. Le levier se situe ailleurs — dans les points de passage que chaque requête d’inférence hébergée doit franchir (Figure 1).

Considérons une telle requête. Une jeune pousse de trois personnes à Tunis a bâti un outil de traitement documentaire pour des clients régionaux ; chaque tâche envoie quelques centaines de milliers de tokens à un modèle de pointe et reçoit la réponse en flux continu. Avant qu’un seul token ne revienne, la requête doit franchir une série de points de passage, dont aucun n’est sous le contrôle de la jeune pousse. Le compte doit exister, ce qui suppose que le fournisseur desserve la Tunisie. Il doit être approvisionné — une contrainte ferme en Tunisie, où les cartes en dinars ne sont pas autorisées pour les transactions en devises et où ni Stripe ni Adyen n’enrôlent d’entreprises où que ce soit en Afrique du Nord. La requête doit s’inscrire dans un palier de limite de débit qui progresse avec les paiements cumulés. Le modèle doit être disponible dans la juridiction ; l’usage doit se conformer à des conditions définies par un droit étranger. Ce n’est qu’alors que la requête voyage — passerelle nationale, câble sous-marin, nœud de périphérie européen, réseau privé du fournisseur — et la route elle-même n’est pas garantie. Chaque point de passage est ordinaire, justifiable et ouvert la plupart du temps. C’est précisément ce que le siècle pétrolier enseigne sur les points de passage : leur politique reste invisible jusqu’à ce que le flux compte plus que d’ordinaire, ou que les intérêts du gardien changent.

Un corpus de travaux croissant complique le cadre productiviste : une souveraineté de l’IA sur toute la pile est structurellement irréalisable pour presque tout pays (Tanner, Kerry, et al., 2026) ; le contrôle de la couche de déploiement repose sur des dépendances sous contrôle américain — le « déficit de souveraineté » (Chavez, 2026) ; les fournisseurs qui revendent de l’« IA souveraine » aux États la définissent selon leurs propres termes (Yew et al., 2026). Ce qu’aucune ne fournit, c’est un compte rendu systématique du flux lui-même : comment l’inférence circule, par quels canaux, sous le contrôle de qui, avec quelles possibilités de réacheminement.

Figure 1. Une requête d’inférence, de multiples points de passage (animation). Un token ne voyage pas comme le pétrole, mais chaque requête d’inférence hébergée franchit des points de passage opposables — règles de pays autorisés, rails de paiement, limites de débit, contrats. L’animation suit une requête à travers sept étapes et montre ce qui se produit lorsqu’un point de passage se referme. Schéma ; le placement des points de passage est illustratif.

La forme du flux

La méthode vient de l’économie politique de l’énergie. Carbon Democracy de Timothy Mitchell (2011) a montré que les possibilités politiques des ères du charbon et du pétrole étaient façonnées moins par qui possédait la ressource que par la forme matérielle de son flux. Le charbon circulait par des réseaux ramifiés, avec des points de passage où un travail concentré pouvait interrompre le flux ; le pétrole a été reconçu autour de cette vulnérabilité — fluide, capitalistique, capable de contourner les blocages. La transition n’a pas éliminé la concentration ; elle l’a relocalisée, de la mine et du terminal ferroviaire vers les cartels d’État et d’entreprises qui gouvernent routes et prix. Trois outils se transposent : la forme du flux (le canal, et non le producteur, est l’unité d’analyse), le point de passage (un point de passage ne devient politique que lorsque des acteurs peuvent agir dessus), et les affordances politiques (ce que la forme d’une infrastructure permet de faire à des acteurs diversement positionnés).

Appliquée à l’histoire de l’informatique, la méthode révèle trois régimes, chacun avec une nouvelle couche de pouvoir concentré (Figure 2). Le régime internet (années 1990–2000) vendait la connectivité sur un maillage redondant à protocoles ouverts ; des points de passage existaient mais étaient peu activés. Le régime cloud (années 2010) a déplacé la concentration vers l’hébergement — qui fait tourner vos charges, sous quels contrats et juridictions (Srnicek, 2017 ; Narayan, 2022). Le régime LLM (2022–présent) vend le raisonnement algorithmique lui-même, mesuré au token, circulant d’une application via un agrégateur à un modèle hébergé et retour, chaque étape régie par des conditions d’API, des limites de débit, des règles géographiques, des rails de paiement et un contrat.

Schéma comparant trois régimes informatiques — internet (années 1990–2000), cloud (années 2010) et LLM (2022–présent) — selon la marchandise, la forme du flux et les points de passage. Une épaisse flèche couleur brique monte de gauche à droite le long du bas, portant la couche de concentration de la connectivité réseau, à l'hébergement de plateforme, à la couche modèle/API.
Figure 2 : La concentration migre ; elle ne disparaît pas. À travers trois régimes informatiques, le contrôle se concentre à la couche par laquelle le flux dominant doit passer. — Cadre : Mitchell (2011), adapté ; caractérisations des régimes d'après Srnicek (2017), Narayan (2022), Demirer et al. (2025).

L’entraînement reste un point de passage stratégique — les contrôles à l’exportation de puces le prouvent. Mais l’entraînement est épisodique tandis que l’inférence hébergée est récurrente : chaque requête, chaque heure, doit franchir un compte, une passerelle, un rail de paiement, une limite de débit et une règle juridictionnelle. Ce passage récurrent crée une couche de levier supplémentaire — continue, fine, contractuelle — que la politique côté production ne capture pas.

Comment circule réellement l’inférence

La mesure la plus directe du levier, c’est là où l’argent aboutit. L’enquête entreprises de fin 2025 de Menlo Ventures estime les dépenses d’API LLM à Anthropic 40 %, OpenAI 27 %, Google 21 % — un total combiné de 88 % (Figure 3), les 12 % restants répartis entre l’écosystème Llama de Meta, Cohere, Mistral et une longue traîne. Et ce n’est pas passager : la part combinée des trois premiers est passée d’environ 69 % en 2023, alors même que la tête changeait de mains au sein de l’oligopole. Le roulement du leadership au sommet d’une concentration durable est précisément ce qui distingue un point de passage structurel d’une position de marché temporaire. La concentration triangule : l’enquête de janvier 2026 d’a16z auprès des DSI place indépendamment ~90 % des dépenses chez les trois mêmes fournisseurs, tout en inversant l’ordre. Ordre contesté, concentration admise (~88–92 %).

Graphique à deux panneaux des estimations de Menlo Ventures sur les dépenses en dollars d'API LLM des entreprises américaines. Panneau A : parts fin 2025 — Anthropic 40 %, OpenAI 27 %, Google 21 %, autres 12 %, trois premiers combinés 88 %. Panneau B : parts déclarées 2023–2025, Anthropic montant de 12 à 24 à 40, OpenAI descendant de 50 à 27, Google montant de 7 à 21.
Figure 3 : Concentration des fournisseurs dans les dépenses en dollars d'API LLM des entreprises. Le total des trois premiers en 2023 (~69 %) est dérivé en sommant les parts par fournisseur. — Estimation Menlo Ventures, fin 2025 ; par enquête, N=495, États-Unis ; proximité fournisseur, Menlo étant investisseur d'Anthropic.

Les prix, eux, se sont effondrés — mais inégalement. Du (2026) estime une baisse d’environ 600 fois du prix des tokens depuis 2020, les paliers de base étant divisés par deux tous les un à un an et demi tandis que le prix du palier de pointe ne montre aucune décroissance régulière, soutenu par une prime au raisonnement (Figure 4). Le sens politique est à double tranchant : l’intelligence de base devient radicalement bon marché, une bonne nouvelle pour les importateurs de tokens, mais le raisonnement de pointe — le palier dont les applications à forte valeur ont besoin — se comporte comme un bien différencié dont les vendeurs, largement les mêmes que les entreprises captant les dollars, ont jusqu’ici maintenu le prix. La dépendance au palier de pointe n’est pas érodée par la déflation.

Graphique en échelle logarithmique du prix en USD par million de tokens de sortie, de 2020 à mi-2026. Cercles clairs pour le palier de base descendant de GPT-3 davinci à 60 dollars en 2021 jusqu'à environ 0,28–0,40 en 2026. Carrés foncés pour le palier de pointe situés dans une bande horizontale ombrée d'environ 50–180 dollars de 2023 à 2026. Une flèche marque la baisse de 80 % d'OpenAI sur o3 en juin 2025.
Figure 4 : Le prix des tokens de base s'est effondré ; les prix de pointe n'ont pas suivi. Reconstruction stylisée (pointillés) face aux observations brutes (marqueurs) ; échelle logarithmique. — Du (2026), arXiv:2603.28576 (prépublication) ; pages tarifaires archivées, consultées en juin 2026.

La baisse des prix ressemble à une baisse de la dépendance ; c’est l’inverse qui est plus proche de la vérité. Lorsqu’un intrant utile devient moins cher, les économies n’empochent pas les économies réalisées — elles enracinent l’intrant plus profondément. Le mécanisme est le passage de la conversation aux agents. Un échange conversationnel consomme des milliers de tokens, au rythme humain ; une charge agentique en consomme des millions par tâche, au rythme machine, en longues boucles autonomes. À mesure que les prix unitaires chutaient, la consommation totale grimpait fortement : les dépenses d’API de modèles des entreprises ont plus que doublé en huit mois pour atteindre 8,4 milliards de dollars à la mi-2025, et les tokens via OpenRouter ont été multipliés par environ dix en 2025. Cela charge le flux. La panne d’un agent conversationnel est un désagrément ; la panne d’un agent de production arrête des flux de travail. La déflation n’érode pas cette dépendance — elle en finance l’expansion.

Le marché engendre deux statistiques qui semblent contradictoires (Figure 5). Le HHI du catalogue large d’inférence a fortement baissé en trois ans — franchissant le seuil de « fortement concentré » à « modérément concentré » à mesure que des entrants à poids ouverts diversifiaient l’offre — tandis que 88 % des dollars des entreprises affluent toujours vers trois firmes. Ces deux mesures mesurent des couches différentes. L’indice en baisse reflète un bazar dynamique de modèles accessibles aux expérimentateurs ; les 88 % reflètent l’achat par les entreprises. Un indice en baisse à la première couche ne dit rien du levier à la seconde.

Deux cartes côte à côte reliées par un encadré indiquant « Couches différentes, mesures différentes — ne pas comparer les hauteurs ». Carte de gauche : HHI du catalogue large de modèles en baisse de 4 558 au T1 2023 à 2 086 au T1 2026. Carte de droite : flux de dollars d'API entreprise en barre empilée à 100 % — Anthropic 40 %, OpenAI 27 %, Google 21 %, autres 12 %, avec une accolade sur les trois premiers indiquant 88 %.
Figure 5 : Deux couches, deux mesures. La concentration du catalogue large (Du 2026, HHI estimé par proxy) baisse tandis que le flux de dollars des entreprises (estimation Menlo) reste concentré ; les panneaux mesurent des couches différentes et ne sont pas comparables. — Du (2026) ; Menlo Ventures (déc. 2025).

La structure suit une chaîne d’approvisionnement à trois paliers (Demirer et al., 2025) : les créateurs de modèles au sommet, là où se concentrent les dollars ; les fournisseurs d’inférence (Azure, Cerebras, Together AI, Groq) exploitant un calcul intensément concurrentiel ; et les agrégateurs (OpenRouter et ses pairs) acheminant la demande — à la fois outil de résilience et nouveau point unique de défaillance. La dépendance est plus collante que ne le suggère la diversité du catalogue : seuls 11 % des développeurs interrogés ont changé de fournisseur principal sur l’année jusqu’à mi-2025, et la part de tokens des modèles ouverts reste inférieure à 30 %. La redondance croît ; la substituabilité — changer de fournisseur en production, vite et sans perte de capacité — reste à la traîne.

La « domination américaine de l’IA » confond au moins trois flux aux géographies et points de passage différents (Figure 6) : un flux grand public acheminé via une poignée d’applications américaines (points de passage : magasins d’applications, rails de paiement grand public, politiques de contenu) ; un flux développeurs nettement plus international — plus de la moitié de l’usage d’OpenRouter provient de l’extérieur des États-Unis — filtré par la disponibilité géographique des API, les rails de paiement développeurs et les limites de débit ; et un flux entreprises concentré en dollars et filtré par les contrats, la résidence des données et les régimes de conformité. Une politique qui traite les trois comme un seul diagnostiquera mal l’exposition.

Schéma en couloirs avec trois voies horizontales — grand public, développeurs, entreprises — chacune retraçant l'acteur, le canal, les points de passage et l'exposition. Une annotation au-dessus de la voie développeurs note que plus de 50 % de l'usage d'OpenRouter provient de l'extérieur des États-Unis. Une accolade verticale couvrant les trois voies marque le scénario de constriction corrélée, où des chocs de paiement, de géographie, de contrat et de conformité lient les trois flux ensemble.
Figure 6 : La dépendance aux tokens n'est pas un flux mais trois. Les canaux grand public, développeurs et entreprises passent par des points de passage différents — et certains chocs peuvent les resserrer tous les trois ensemble. — Chiffre de la voie développeurs : OpenRouter, State of AI 2025.

Où la région MENA est exposée

La région MENA n’est pas un marché unique de l’IA. Elle comprend des États du Golfe investissant dans le calcul et des modèles nationaux (le pôle côté production) ; des économies de développeurs à revenu intermédiaire qui importent surtout des tokens (la préoccupation première ici) ; des contextes sous sanctions ou affectés par les conflits, où les règles d’accès jouent différemment ; et des acteurs du secteur public confrontés à des questions de marchés publics et de continuité. La littérature régionale s’est concentrée sur la gouvernance de la production, l’éthique et la pénalité structurelle de l’arabe sous une tokenisation centrée sur l’anglais — mais a laissé le flux de consommation largement inexploré.

À la couche fournisseur, en juin 2026, quinze des dix-neuf juridictions de la région MENA figurent sur les quatre grandes listes positives de pays américaines ; le Yémen et le Soudan figurent chacun sur trois ; l’Iran et la Syrie ne figurent sur aucune, et Mistral, le fournisseur européen, nomme les deux mêmes exclusions — la divergence UE/États-Unis que beaucoup anticipent n’existe pas à cette couche. La couche paiement est la contrainte la plus large : Stripe enrôle des entreprises dans exactement un pays de la région MENA (les Émirats arabes unis), Adyen dans aucun, et le Maghreb et le Levant opèrent sous des restrictions documentées des banques centrales sur l’usage international des cartes — l’interdiction de fait de l’Algérie, le quota de la Libye, l’exclusion par la Tunisie des cartes en dinars des transactions en devises, le régime de « dollars frais » du Liban. Comme chaque grand fournisseur filtre le débit d’API derrière des paliers de paiement cumulés, l’accès aux rails de paiement est un point de passage empilé sur la disponibilité formelle. La Palestine est le cas distinctif : rails techniquement fonctionnels, et pourtant chaque grand processeur exclut les résidents de Cisjordanie et de Gaza.

L’Iran est la preuve d’existence de la constriction corrélée — simultanément absent de toute liste de fournisseur, exclu de tout rail de paiement et interdit par la réglementation des sanctions : une constriction aux trois couches à la fois, par la loi. La Syrie est le cas transitionnel instructif : les sanctions américaines globales ont été révoquées en juillet 2025 et le Caesar Act abrogé en décembre, et pourtant la Syrie reste absente de la liste des pays pris en charge par tous les grands fournisseurs. Les points de passage ont survécu à leur justification déclarée.

Le risque stratégique pour les importateurs non sanctionnés est une corrélation d’un type plus doux. Les instruments juridictionnels méritent de la précision plutôt que de l’alarme : en vertu du CLOUD Act, l’exposition suit la juridiction sur le fournisseur, et non l’emplacement du serveur — plus étroit que sa réputation, mais réel. Les contrôles à l’exportation sur l’inférence sont un canal prévisible, pas encore un régime contraignant. Et la couche du flux a un substrat physique : lorsque des câbles sous-marins ont été sectionnés près de Djeddah en septembre 2025, sur un corridor portant ~17 % du trafic intercontinental, la connectivité s’est dégradée du Golfe à l’Asie du Sud en quelques heures — et l’inférence hébergée emprunte les mêmes câbles. Le réacheminement a absorbé le choc en quelques jours, ce que le pétrole ne peut pas. Le propos est que les importations de tokens de la région MENA transitent par un ensemble étroit de corridors physiques et un ensemble étroit de points de passage juridictionnels, gouvernés par des firmes et des États qui se recoupent. Le passage corrélé est la condition héritée de la région ; le flux de tokens en est la couche la plus récente.

La réponse côté production — le calcul souverain — ne traite rien de tout cela. Une grappe de GPU nationale ne maintient pas approvisionné le compte d’API d’une jeune pousse du Caire ou de Tunis, ne change pas le droit applicable au contrat cloud d’une entreprise de Riyad, et ne fournit pas de repli de qualité de pointe lorsque l’accès se resserre. L’exposition est du côté du flux ; la dépense est du côté de la production.

La résilience plutôt que l’autosuffisance

L’analyse de la forme du flux converge avec la position de l’« interdépendance gérée » (Tanner, Kerry, et al., 2026) mais l’affine : gérer l’interdépendance exige de cartographier les flux, et pas seulement les fournisseurs. Les recommandations — segmentées par public dans la carte ci-dessus — sont ordonnées par faisabilité et commencent délibérément par ce qu’un seul ministère peut entreprendre dans les quatre-vingt-dix jours, car les données de dépendance préalables n’existent pas encore.

La fenêtre des poids ouverts est abordable mais conditionnelle : les modèles à poids ouverts ne sont une ressource de résilience que lorsque les poids sont effectivement détenus, servis, testés et intégrés avant une crise. Le constat des 90 % d’économie rend une pile de repli testée abordable ; la part de consommation inférieure à 30 % et le taux de bascule de 11 % mesurent le chemin de test qui sépare la fenêtre de prix d’un repli réel. Pour le programme des infrastructures critiques, l’échelle des instruments va de la visibilité (inventaires de dépendances, signalement d’incidents) à la continuité (attentes de service, continuité de paiement, portabilité) jusqu’aux arrangements internationaux — l’analogue des cadres de sécurité énergétique bâtis après les chocs pétroliers.

Chaque transition infrastructurelle des trois dernières décennies a relocalisé la couche où se concentre le contrôle du flux computationnel : de la connectivité réseau, à l’hébergement de plateforme, à la couche modèle-API qui mesure désormais le raisonnement machine. La conversation politique actuelle, obnubilée par la production de cette capacité, analyse les puits et ignore le détroit — l’année même où un détroit réel a été perturbé et où une simple menace annoncée a réacheminé la navigation. Pour la plupart des pays, la question pertinente n’est pas comment produire l’intelligence ? mais comment la maintenir en circulation à des conditions acceptables quand les conditions changent ? C’est une question de résilience, à laquelle on peut répondre avec des instruments qui existent aujourd’hui, à commencer par une carte de dépendance que tout ministère pourrait amorcer ce trimestre.

Importer l'intelligence — note intégrale (PDF) L'argument complet, l'appareil statistique, les Notes et la bibliographie intégrale. Sous licence CC BY 4.0. PDF CC BY 4.0

Version d’archive citable faisant foi : doi.org/10.5281/zenodo.20677200 (Zenodo).