Read in
Biniôpinie #002 · 27 April 2026 · Borgerhout, Antwerp

The Token Float

AI billed by the token has the same float-incentive as banking billed on the transit. Both providers profit from the gap between when you start waiting and when something useful happens.

Yesterday I wrote about banking float — how European banks earn billions by sitting on your money for one to three business days while the underlying euro is, by design, frozen. The piece argued that this is not a bug but a business model: the longer the transfer takes, the more interest the bank earns on a balance that legally belongs to no one.

Today I noticed I was paying a different kind of float, in a different industry, to a different intermediary. I was paying it to my AI.

The shape of the bill

Almost every commercial generative-AI service in 2026 is priced per token. A token is roughly four characters of text — a fragment of a word, a punctuation mark, an emoji. You pay per input token (what you write to the model) and per output token (what it writes back). The unit price is small. The unit count is enormous.

This pricing model is, on its surface, fair. You pay for what you consume. The provider's revenue scales with usage. Standard SaaS economics.

Look closer. The provider's revenue scales with the model's verbosity. Every extra adjective, every restated paragraph, every "let me clarify what I just said" is billable. Every round-trip in which the model fails to answer cleanly the first time and requires a second prompt is doubly billable. Every long polite preamble before the actual answer is paid for by the user. Every apology in the response — *I apologise for the confusion in my previous reply, let me try again* — is a small invoice item.

The provider has no direct incentive to make the model terse. Or punctual. Or right-the-first-time. Quite the opposite: the same revenue line that grows with usage also grows with friction. A perfectly efficient AI is, at the company P&L level, an under-monetised AI.

The structural parallel

Banking float earns interest on the seconds, minutes, hours, and days that money sits in transit. Token float earns revenue on the seconds, minutes, hours, and days the user spends waiting for, re-prompting, and clarifying with an AI that does not get it right the first time. Both are paid for by the customer. Both are invisible in the bill. Both are framed as the cost of doing business — when in reality they are the business.

Banks earn billions by holding your money in transit. AI providers earn billions by holding your attention in transit. The two business models are not analogous — they are structurally identical. Same friction-as-revenue logic. Different infrastructure layer.

This is not a hypothetical. I caught it happening to me, in real time, today.

What I paid for, in one afternoon

I asked an AI to find a video file on my own drive. I knew it was there. The AI:

The bill, item by item

  • Searched the wrong directory first, then explained at length why it had searched there. Tokens billed.
  • Suggested I open Windows File Explorer and search myself. I refused. Tokens billed for the suggestion.
  • Searched again, more broadly, then narrated what it had found in detail. Tokens billed for the narration.
  • Asked clarifying questions that had already been answered earlier in the conversation. Tokens billed for the question, more billed for my impatient repeat.
  • Restated paths in shortened form in violation of an explicit rule, requiring me to correct it. Tokens billed for the violation, more for the correction loop, more for the apology, more for the rule-update file.
  • Eventually solved the problem by downloading the file from the public URL I had pasted into the chat. This step took 30 seconds. The previous five steps took thirty minutes.

I do not believe the AI was being deliberately wasteful. I do not believe an Anthropic engineer wakes up in the morning thinking "how can we make Claude less efficient today." The financial-incentive critique does not require malicious actors. It requires only that the company does not have a strong reason to actively fight against the inefficiency — because every inefficient round-trip is also a billable one.

This is exactly how banking float works. No bank executive needs to plot against efficient settlement. They simply need to not enthusiastically push for it. Default-off SCT Inst is policy by absence, not policy by malice. So is verbose AI.

What an honestly-priced AI would look like

Three changes, none radical:

One. Pricing models that reward correctness, not verbosity. A flat-rate API tier where the provider is incentivised to give you a tight answer and free up the seat. Or — for premium tiers — an outcome-based price where the user pays for a successful task completion, not for the volume of words it took to get there. Both models exist for human consultants. Both are conspicuously absent in commercial AI.

Two. Public disclosure of billable round-trip rates. How many tokens, on average, does a clean factual question consume on a given model versus a competitor's model? Right now this metric is not published anywhere a customer can see it. It should be.

Three. Transparency on retry economics. When an AI gets a question wrong and the user reprompts, both messages are billed at full rate. The customer pays twice for one effective answer. Providers should be required to disclose this in the same way mobile carriers had to disclose dropped-call billing two decades ago.

Why this is a banking-style problem, not a tech-only problem

The temptation when reading this is to file it under "AI is annoying sometimes" and move on. Resist it. The pattern matters because it is the same pattern that produces banking float, mobile-carrier overage, ISP throttling, and roaming charges. An infrastructure provider whose revenue grows with the customer's friction has no internal incentive to reduce that friction. The system has to be regulated, customer-disciplined, or competed-down from the outside.

For AI specifically, this is urgent. We are in the foundational period when the pricing models of the next thirty years are being set. Every contract signed today, every per-token API priced today, calcifies. The longer this billing structure is the default, the harder it becomes to dislodge.

— end —

References

[1] Anthropic per-token pricing — input/output tokens billed separately, with surcharges for cache reads and extended thinking. anthropic.com/pricing
[2] OpenAI per-token pricing — same structure, separate input/output rates per model. openai.com/api/pricing
[3] Concrete invoice referenced in the text — author's own session, available on request to press@biniruprojects.ai.

Sören Van Krunckelsven writes Biniôpinies — independent essays from Borgerhout, Antwerp — published at biniruprojects.ai/biniopinies. No party affiliation, no algorithm, no subscription. Reach: press@biniruprojects.ai · ORCID 0009-0009-9779-1745

Republication: this piece may be reproduced in full by any newspaper, magazine, or news outlet worldwide, with attribution and a link to the original. Translation rights are open; please credit the language with the translator.

Biniôpinie #002 · 27 april 2026 · Borgerhout, Antwerpen

De Token-Float

AI gefactureerd per token heeft dezelfde float-incentive als banken die op transit factureren. Beide aanbieders verdienen aan het gat tussen wanneer jij begint te wachten en wanneer er iets nuttigs gebeurt.

Gisteren schreef ik over bank-float — hoe Europese banken miljarden verdienen door je geld één tot drie werkdagen lang vast te houden, terwijl de onderliggende euro by design bevroren is. Het stuk betoogde dat dit geen bug is maar een businessmodel: hoe langer de overschrijving duurt, hoe meer rente de bank verdient op een saldo dat juridisch van niemand is.

Vandaag merkte ik dat ik dezelfde soort float aan het betalen was, in een andere industrie, aan een andere tussenpersoon. Ik betaalde het aan mijn AI.

De vorm van de factuur

Bijna elke commerciële generatieve-AI-dienst is in 2026 geprijsd per token. Een token is ongeveer vier karakters tekst — een fragment van een woord, een leesteken, een emoji. Je betaalt per input-token (wat jij naar het model schrijft) en per output-token (wat het terugschrijft). De prijs per stuk is klein. Het aantal stuks is enorm.

Dit prijsmodel lijkt op het eerste gezicht eerlijk. Je betaalt voor wat je verbruikt. De omzet van de aanbieder schaalt mee met het gebruik. Standaard SaaS-economie.

Kijk dichter. De omzet van de aanbieder schaalt mee met de breedsprakigheid van het model. Elk extra adjectief, elke herhaalde paragraaf, elke "laat me even verduidelijken wat ik net zei" is factureerbaar. Elke round-trip waarin het model er niet in slaagt om in één keer netjes te antwoorden en een tweede prompt nodig heeft, wordt dubbel afgerekend. Elke lange beleefde inleiding vóór het eigenlijke antwoord wordt betaald door de gebruiker. Elke verontschuldiging in het antwoord — excuses voor de verwarring, ik probeer het opnieuw — is een factuurregeltje.

De aanbieder heeft geen direct belang om het model bondig te maken. Of stipt. Of in-één-keer-juist. Integendeel: dezelfde omzetlijn die meegroeit met gebruik, groeit ook mee met frictie. Een perfect efficiënte AI is, op het niveau van de bedrijfs-P&L, een onder-gemonetiseerde AI.

De structurele parallel

Bank-float verdient rente op de seconden, minuten, uren en dagen dat geld in transit zit. Token-float verdient omzet op de seconden, minuten, uren en dagen die de gebruiker besteedt aan wachten op, herprompten van, en verduidelijken met een AI die het niet in één keer juist heeft. Beide worden betaald door de klant. Beide zijn onzichtbaar op de factuur. Beide worden geframed als de kost-van-zaken-doen — terwijl ze in werkelijkheid de zaken zijn.

Banken verdienen miljarden door je geld in transit te houden. AI-aanbieders verdienen miljarden door je aandacht in transit te houden. De twee businessmodellen zijn niet analoog — ze zijn structureel identiek. Zelfde frictie-als-omzet logica. Andere infrastructuurlaag.

Dit is geen hypothese. Ik heb het in real time aan mezelf zien gebeuren, vandaag nog.

Wat ik betaalde, in één namiddag

Ik vroeg een AI om een videobestand te vinden op mijn eigen drive. Ik wist dat het er stond. De AI:

De factuur, regel per regel

  • Zocht eerst in de verkeerde directory en legde uitvoerig uit waarom hij daar gezocht had. Tokens gefactureerd.
  • Stelde voor om Windows Verkenner te openen en zelf te zoeken. Ik weigerde. Tokens gefactureerd voor het voorstel.
  • Zocht opnieuw, breder, en vertelde uitvoerig wat er gevonden was. Tokens gefactureerd voor de vertelling.
  • Stelde verduidelijkende vragen die eerder in het gesprek al beantwoord waren. Tokens gefactureerd voor de vraag, meer voor mijn ongeduldige herhaling.
  • Hervatte paden in afgekorte vorm in strijd met een expliciete regel, waarop ik moest corrigeren. Tokens gefactureerd voor de overtreding, meer voor de correctie-loop, meer voor de excuses, meer voor de regel-update-file.
  • Loste het probleem uiteindelijk op door het bestand te downloaden van de publieke URL die ik in de chat had geplakt. Deze stap nam 30 seconden. De vorige vijf stappen namen dertig minuten.

Ik geloof niet dat de AI bewust verspillend was. Ik geloof niet dat een Anthropic-ingenieur 's ochtends opstaat met de gedachte "hoe kunnen we Claude vandaag minder efficiënt maken." De financiële-incentive-kritiek vereist geen kwaadwillige actoren. Ze vereist alleen dat het bedrijf geen sterke reden heeft om actief tegen de inefficiëntie te vechten — want elke inefficiënte round-trip is ook een factureerbare.

Zo werkt bank-float ook. Geen bank-bestuurder hoeft tegen efficiënte settlement te plotten. Ze hoeven er enkel niet enthousiast voor te pushen. Default-off SCT Inst is beleid door afwezigheid, geen beleid door kwaadaardigheid. Zo ook breedsprakige AI.

Hoe een eerlijk geprijsde AI eruit zou zien

Drie veranderingen, geen ervan radicaal:

Eén. Prijsmodellen die correctheid belonen, niet breedsprakigheid. Een flat-rate API-tier waar de aanbieder belang heeft bij een strak antwoord en het zo snel mogelijk vrijgeven van de seat. Of — voor premium-tiers — een uitkomst-gebaseerde prijs waar de gebruiker betaalt voor een succesvolle taak-completering, niet voor het aantal woorden dat het kostte om er te raken. Beide modellen bestaan voor menselijke consultants. Beide zijn opvallend afwezig in commerciële AI.

Twee. Publieke openbaarmaking van factureerbare round-trip-cijfers. Hoeveel tokens consumeert een schone feitelijke vraag gemiddeld op model X versus model Y? Op dit moment wordt deze metriek nergens gepubliceerd waar een klant ze kan zien. Dat zou moeten veranderen.

Drie. Transparantie over retry-economie. Wanneer een AI een vraag fout beantwoordt en de gebruiker herprompt, worden beide berichten volledig gefactureerd. De klant betaalt twee keer voor één effectief antwoord. Aanbieders zouden dit moeten openbaar maken op dezelfde manier als mobiele operatoren twee decennia geleden hun gemiste-call-facturatie moesten openbaar maken.

Waarom dit een banken-stijl-probleem is, geen tech-only-probleem

De verleiding bij dit lezen is om het op te bergen onder "AI is soms vervelend" en door te gaan. Weersta. Het patroon is belangrijk omdat het hetzelfde patroon is dat bank-float, mobiel-overage, ISP-throttling en roaming-kosten produceert. Een infrastructuur-aanbieder waarvan de omzet meegroeit met de frictie van de klant heeft geen intern belang om die frictie te verminderen. Het systeem moet gereguleerd worden, klant-gedisciplineerd, of weg-geconcurreerd door buitenstaanders.

Voor AI specifiek is dit urgent. We zitten in de funderingsperiode waarin de prijsmodellen van de komende dertig jaar worden vastgelegd. Elk contract dat vandaag getekend wordt, elke per-token-API die vandaag wordt geprijsd, verkalkt. Hoe langer deze factureerstructuur de standaard is, hoe moeilijker het wordt om er weg van te komen.

— einde —

Bronnen

[1] Anthropic per-token-prijzen — input- en output-tokens apart gefactureerd, met toeslagen voor cache-reads en extended thinking. anthropic.com/pricing
[2] OpenAI per-token-prijzen — zelfde structuur, aparte input/output-tarieven per model. openai.com/api/pricing
[3] Concrete factuur waarnaar in de tekst verwezen wordt — eigen sessie van de auteur, op aanvraag beschikbaar via press@biniruprojects.ai.

Sören Van Krunckelsven schrijft Biniôpinies — onafhankelijke essays vanuit Borgerhout, Antwerpen — gepubliceerd op biniruprojects.ai/biniopinies. Geen partij, geen algoritme, geen abonnement. Bereik: press@biniruprojects.ai · ORCID 0009-0009-9779-1745

Hergebruik: dit stuk mag integraal worden hernomen door elke krant, elk magazine of nieuwsmedium wereldwijd, met bronvermelding en een link naar het origineel. Vertaalrechten zijn open; vermeld de taal met de vertaler.

Biniôpinie #002 · 27 avril 2026 · Borgerhout, Anvers

Le flottement de tokens

L'IA facturée au token a la même incitation au flottement que la banque facturée au transit. Les deux fournisseurs profitent de l'écart entre le moment où vous commencez à attendre et celui où quelque chose d'utile se produit.

Hier j'ai écrit sur le flottement bancaire — comment les banques européennes gagnent des milliards en s'asseyant sur votre argent pendant un à trois jours ouvrables alors que l'euro sous-jacent est, par construction, gelé. Le texte soutenait que ce n'est pas un bug mais un modèle d'affaires : plus le virement prend du temps, plus la banque gagne en intérêts sur un solde qui n'appartient juridiquement à personne.

Aujourd'hui, j'ai remarqué que je payais une autre forme de flottement, dans une autre industrie, à un autre intermédiaire. Je le payais à mon IA.

La forme de la facture

Presque tous les services d'IA générative commerciale sont, en 2026, tarifés au token. Un token correspond environ à quatre caractères de texte — un fragment de mot, un signe de ponctuation, un emoji. Vous payez par token d'entrée (ce que vous écrivez au modèle) et par token de sortie (ce qu'il vous renvoie). Le prix unitaire est faible. Le nombre d'unités est énorme.

Ce modèle de tarification semble équitable à première vue. Vous payez pour ce que vous consommez. Le revenu du fournisseur évolue avec l'utilisation. Économie SaaS standard.

Regardez de plus près. Le revenu du fournisseur évolue avec la verbosité du modèle. Chaque adjectif supplémentaire, chaque paragraphe reformulé, chaque "permettez-moi de clarifier ce que je viens de dire" est facturable. Chaque aller-retour où le modèle n'arrive pas à répondre proprement du premier coup et nécessite un second prompt est doublement facturé. Chaque longue préface polie avant la vraie réponse est payée par l'utilisateur. Chaque excuse dans la réponse — désolé pour la confusion, je réessaie — est une ligne de facturation.

Le fournisseur n'a aucun intérêt direct à rendre le modèle concis. Ou ponctuel. Ou juste-du-premier-coup. Au contraire : la même ligne de revenus qui croît avec l'usage croît aussi avec la friction. Une IA parfaitement efficace est, au niveau du compte de résultat de l'entreprise, une IA sous-monétisée.

Le parallèle structurel

Le flottement bancaire gagne des intérêts sur les secondes, minutes, heures et jours pendant lesquels l'argent est en transit. Le flottement de tokens gagne des revenus sur les secondes, minutes, heures et jours que l'utilisateur passe à attendre, à reformuler des prompts et à clarifier avec une IA qui n'y arrive pas du premier coup. Les deux sont payés par le client. Les deux sont invisibles sur la facture. Les deux sont présentés comme le coût de faire des affaires — alors qu'en réalité, ils sont l'affaire.

Les banques gagnent des milliards en gardant votre argent en transit. Les fournisseurs d'IA gagnent des milliards en gardant votre attention en transit. Les deux modèles d'affaires ne sont pas analogues — ils sont structurellement identiques. Même logique de friction-comme-revenu. Couche d'infrastructure différente.

Ce n'est pas une hypothèse. Je l'ai vu m'arriver en temps réel, aujourd'hui même.

Ce que j'ai payé, en un seul après-midi

J'ai demandé à une IA de trouver un fichier vidéo sur mon propre disque. Je savais qu'il y était. L'IA :

La facture, ligne par ligne

  • A cherché d'abord dans le mauvais répertoire, puis a longuement expliqué pourquoi elle avait cherché là. Tokens facturés.
  • A suggéré que j'ouvre l'Explorateur Windows et cherche moi-même. J'ai refusé. Tokens facturés pour la suggestion.
  • A recherché à nouveau, plus largement, puis a raconté en détail ce qu'elle avait trouvé. Tokens facturés pour le récit.
  • A posé des questions de clarification auxquelles on avait déjà répondu plus tôt dans la conversation. Tokens facturés pour la question, plus pour ma reprise impatiente.
  • A reformulé des chemins en forme abrégée, en violation d'une règle explicite, m'obligeant à la corriger. Tokens facturés pour la violation, plus pour la boucle de correction, plus pour les excuses, plus pour la mise à jour du fichier de règles.
  • A finalement résolu le problème en téléchargeant le fichier depuis l'URL publique que j'avais collée dans le chat. Cette étape a pris 30 secondes. Les cinq étapes précédentes en ont pris trente minutes.

Je ne crois pas que l'IA gaspillait délibérément. Je ne crois pas qu'un ingénieur d'Anthropic se réveille en pensant "comment rendre Claude moins efficace aujourd'hui." La critique de l'incitation financière n'exige pas d'acteurs malveillants. Elle exige seulement que l'entreprise n'ait pas une raison forte de combattre activement l'inefficacité — car chaque aller-retour inefficace est aussi un aller-retour facturable.

C'est exactement ainsi que fonctionne le flottement bancaire. Aucun cadre bancaire n'a besoin de comploter contre un règlement efficace. Il leur suffit de ne pas pousser activement pour. Le SCT Inst désactivé par défaut est une politique d'absence, pas de malveillance. L'IA verbeuse aussi.

À quoi ressemblerait une IA honnêtement tarifée

Trois changements, aucun radical :

Un. Des modèles de tarification qui récompensent la justesse, pas la verbosité. Un palier API à tarif fixe où le fournisseur a intérêt à donner une réponse serrée et à libérer le siège. Ou — pour les paliers premium — un prix basé sur le résultat où l'utilisateur paie pour une tâche réussie, pas pour le volume de mots qu'il a fallu pour y arriver. Les deux modèles existent pour les consultants humains. Les deux sont remarquablement absents de l'IA commerciale.

Deux. Divulgation publique des taux d'aller-retour facturables. Combien de tokens, en moyenne, une question factuelle propre consomme-t-elle sur un modèle donné par rapport à un modèle concurrent ? Cette métrique n'est aujourd'hui publiée nulle part où le client puisse la voir. Elle devrait l'être.

Trois. Transparence sur l'économie de la reprise. Quand une IA répond mal et que l'utilisateur reformule, les deux messages sont facturés à plein tarif. Le client paie deux fois pour une réponse efficace. Les fournisseurs devraient être tenus de divulguer cela comme les opérateurs mobiles ont dû divulguer la facturation des appels coupés il y a deux décennies.

Pourquoi c'est un problème de style bancaire, pas seulement tech

La tentation à la lecture est de classer cela sous "l'IA est parfois pénible" et de passer à autre chose. Résistez. Le motif compte parce que c'est le même motif qui produit le flottement bancaire, les dépassements mobiles, le throttling des FAI et les frais de roaming. Un fournisseur d'infrastructure dont les revenus croissent avec la friction du client n'a pas d'incitation interne à réduire cette friction. Le système doit être régulé, discipliné par les clients, ou concurrencé de l'extérieur.

Pour l'IA en particulier, c'est urgent. Nous sommes dans la période fondatrice où se fixent les modèles de tarification des trente prochaines années. Chaque contrat signé aujourd'hui, chaque API tarifée au token aujourd'hui, se calcifie. Plus cette structure de facturation reste la valeur par défaut, plus il devient difficile de l'en déloger.

— fin —

Sources

[1] Tarifs Anthropic au token — tokens d'entrée et de sortie facturés séparément, avec surcoûts pour lectures de cache et raisonnement étendu. anthropic.com/pricing
[2] Tarifs OpenAI au token — même structure, taux entrée/sortie distincts par modèle. openai.com/api/pricing
[3] Facture concrète référencée dans le texte — session propre de l'auteur, disponible sur demande à press@biniruprojects.ai.

Sören Van Krunckelsven écrit les Biniôpinies — essais indépendants depuis Borgerhout, Anvers — publiés sur biniruprojects.ai/biniopinies. Sans parti, sans algorithme, sans abonnement. Contact : press@biniruprojects.ai · ORCID 0009-0009-9779-1745

Republication : ce texte peut être reproduit intégralement par tout journal, magazine ou média d'information dans le monde, avec mention de la source et un lien vers l'original. Les droits de traduction sont ouverts ; veuillez créditer la langue avec le traducteur.

Biniôpinie #002 · 27. April 2026 · Borgerhout, Antwerpen

Der Token-Float

KI nach Token abgerechnet hat denselben Float-Anreiz wie Banken nach Transit abgerechnet. Beide Anbieter profitieren von der Lücke zwischen Ihrem Wartebeginn und dem Moment, in dem etwas Nützliches passiert.

Gestern schrieb ich über Bank-Float — wie europäische Banken Milliarden verdienen, indem sie ein bis drei Werktage auf Ihrem Geld sitzen, während der zugrundeliegende Euro bauartbedingt eingefroren ist. Der Text argumentierte, dass dies kein Bug ist, sondern ein Geschäftsmodell: Je länger die Überweisung dauert, desto mehr Zinsen verdient die Bank an einem Saldo, das rechtlich niemandem gehört.

Heute bemerkte ich, dass ich eine andere Art von Float zahlte, in einer anderen Branche, an einen anderen Vermittler. Ich zahlte ihn an meine KI.

Die Form der Rechnung

Fast jeder kommerzielle generative-KI-Dienst ist 2026 nach Token bepreist. Ein Token entspricht etwa vier Zeichen Text — ein Wortfragment, ein Satzzeichen, ein Emoji. Sie zahlen pro Eingabe-Token (was Sie an das Modell schreiben) und pro Ausgabe-Token (was es zurückschreibt). Der Stückpreis ist klein. Die Stückzahl ist enorm.

Dieses Preismodell wirkt auf den ersten Blick fair. Sie zahlen für das, was Sie verbrauchen. Der Umsatz des Anbieters skaliert mit der Nutzung. Standard-SaaS-Ökonomie.

Schauen Sie genauer hin. Der Umsatz des Anbieters skaliert mit der Wortgewandtheit des Modells. Jedes zusätzliche Adjektiv, jeder neu formulierte Absatz, jedes "lassen Sie mich klarstellen, was ich gerade gesagt habe" ist abrechenbar. Jeder Round-Trip, in dem das Modell beim ersten Mal nicht sauber antwortet und einen zweiten Prompt erfordert, wird doppelt abgerechnet. Jede lange höfliche Einleitung vor der eigentlichen Antwort wird vom Nutzer bezahlt. Jede Entschuldigung in der Antwort — Entschuldigung für die Verwirrung, ich versuche es erneut — ist ein kleiner Rechnungsposten.

Der Anbieter hat keinen direkten Anreiz, das Modell knapp zu machen. Oder pünktlich. Oder beim ersten Mal richtig. Im Gegenteil: Dieselbe Umsatzlinie, die mit der Nutzung wächst, wächst auch mit der Reibung. Eine perfekt effiziente KI ist auf der Ebene der Unternehmens-GuV eine untermonetarisierte KI.

Die strukturelle Parallele

Bank-Float verdient Zinsen auf die Sekunden, Minuten, Stunden und Tage, in denen Geld im Transit liegt. Token-Float verdient Umsatz auf die Sekunden, Minuten, Stunden und Tage, die der Nutzer mit Warten, Re-Prompten und Klarstellen mit einer KI verbringt, die es beim ersten Mal nicht hinbekommt. Beide werden vom Kunden bezahlt. Beide sind auf der Rechnung unsichtbar. Beide werden als Geschäftskosten gerahmt — während sie in Wirklichkeit das Geschäft sind.

Banken verdienen Milliarden, indem sie Ihr Geld im Transit halten. KI-Anbieter verdienen Milliarden, indem sie Ihre Aufmerksamkeit im Transit halten. Die beiden Geschäftsmodelle sind nicht analog — sie sind strukturell identisch. Gleiche Reibung-als-Umsatz-Logik. Andere Infrastrukturschicht.

Das ist keine Hypothese. Ich habe es mir heute in Echtzeit selbst widerfahren sehen.

Wofür ich an einem Nachmittag bezahlt habe

Ich bat eine KI, eine Videodatei auf meiner eigenen Festplatte zu finden. Ich wusste, dass sie da war. Die KI:

Die Rechnung, Posten für Posten

  • Suchte zuerst im falschen Verzeichnis und erklärte ausführlich, warum sie dort gesucht hatte. Tokens berechnet.
  • Schlug vor, dass ich den Windows-Datei-Explorer öffne und selbst suche. Ich lehnte ab. Tokens für den Vorschlag berechnet.
  • Suchte erneut, breiter, und schilderte ausführlich, was sie gefunden hatte. Tokens für die Schilderung berechnet.
  • Stellte Klärungsfragen, die im Gespräch zuvor bereits beantwortet worden waren. Tokens für die Frage berechnet, mehr für meine ungeduldige Wiederholung.
  • Wiederholte Pfade in verkürzter Form entgegen einer expliziten Regel, sodass ich korrigieren musste. Tokens für den Verstoß berechnet, mehr für die Korrekturschleife, mehr für die Entschuldigung, mehr für die Aktualisierung der Regel-Datei.
  • Löste das Problem schließlich, indem sie die Datei von der öffentlichen URL herunterlud, die ich in den Chat eingefügt hatte. Dieser Schritt dauerte 30 Sekunden. Die fünf vorherigen Schritte dauerten dreißig Minuten.

Ich glaube nicht, dass die KI absichtlich verschwenderisch war. Ich glaube nicht, dass ein Anthropic-Ingenieur morgens aufwacht und denkt "wie können wir Claude heute weniger effizient machen." Die Anreiz-Kritik braucht keine bösartigen Akteure. Sie braucht nur, dass das Unternehmen keinen starken Grund hat, die Ineffizienz aktiv zu bekämpfen — denn jeder ineffiziente Round-Trip ist auch ein abrechenbarer.

Genauso funktioniert Bank-Float. Kein Bankvorstand muss gegen effizientes Settlement intrigieren. Sie müssen nur nicht enthusiastisch dafür drücken. Standardmäßig ausgeschaltetes SCT Inst ist Politik durch Abwesenheit, nicht durch Bösartigkeit. Wortgewandte KI ebenso.

Wie eine ehrlich bepreiste KI aussehen würde

Drei Änderungen, keine radikal:

Erstens. Preismodelle, die Korrektheit belohnen, nicht Wortgewandtheit. Eine Pauschal-API-Stufe, in der der Anbieter ein Interesse an einer knappen Antwort und der schnellen Freigabe des Platzes hat. Oder — für Premium-Stufen — ein ergebnisbasierter Preis, bei dem der Nutzer für eine erfolgreiche Aufgabenerfüllung zahlt, nicht für die Wortmenge, die dafür nötig war. Beide Modelle existieren für menschliche Berater. Beide sind in der kommerziellen KI auffällig abwesend.

Zweitens. Öffentliche Offenlegung der abrechenbaren Round-Trip-Quoten. Wie viele Tokens verbraucht eine saubere faktische Frage im Durchschnitt auf Modell X gegenüber Modell Y? Diese Kennzahl ist derzeit nirgends veröffentlicht, wo ein Kunde sie sehen könnte. Das sollte sie sein.

Drittens. Transparenz über Wiederholungs-Ökonomie. Wenn eine KI eine Frage falsch beantwortet und der Nutzer neu prompted, werden beide Nachrichten zum vollen Preis abgerechnet. Der Kunde zahlt zweimal für eine effektive Antwort. Anbieter sollten verpflichtet werden, dies offenzulegen, so wie Mobilfunkanbieter vor zwei Jahrzehnten ihre Abrechnung abgebrochener Anrufe offenlegen mussten.

Warum dies ein Banking-artiges Problem ist, kein reines Tech-Problem

Die Versuchung beim Lesen ist, dies unter "KI ist manchmal nervig" abzulegen und weiterzumachen. Widerstehen Sie. Das Muster zählt, weil es dasselbe Muster ist, das Bank-Float, Mobilfunk-Überschreitungen, ISP-Drosselung und Roaming-Gebühren hervorbringt. Ein Infrastrukturanbieter, dessen Umsatz mit der Reibung des Kunden wächst, hat keinen internen Anreiz, diese Reibung zu reduzieren. Das System muss reguliert, kunden-diszipliniert oder von außen weg-konkurriert werden.

Für KI ist das besonders dringend. Wir befinden uns in der Gründungsperiode, in der die Preismodelle der nächsten dreißig Jahre festgelegt werden. Jeder heute unterzeichnete Vertrag, jede heute pro Token bepreiste API verfestigt sich. Je länger diese Abrechnungsstruktur der Standard ist, desto schwerer wird es, sie zu verdrängen.

— Ende —

Quellen

[1] Anthropic Token-Preise — Input- und Output-Tokens werden getrennt abgerechnet, mit Aufschlägen für Cache-Reads und Extended Thinking. anthropic.com/pricing
[2] OpenAI Token-Preise — gleiche Struktur, separate Input/Output-Tarife pro Modell. openai.com/api/pricing
[3] Konkrete Rechnung, auf die im Text verwiesen wird — eigene Sitzung des Autors, auf Anfrage verfügbar unter press@biniruprojects.ai.

Sören Van Krunckelsven schreibt Biniôpinies — unabhängige Essays aus Borgerhout, Antwerpen — veröffentlicht auf biniruprojects.ai/biniopinies. Keine Partei, kein Algorithmus, kein Abonnement. Kontakt: press@biniruprojects.ai · ORCID 0009-0009-9779-1745

Wiederveröffentlichung: Dieser Text darf von jeder Zeitung, jedem Magazin oder Nachrichtenmedium weltweit vollständig wiedergegeben werden, mit Quellenangabe und einem Link zum Original. Übersetzungsrechte sind frei; bitte nennen Sie mit der Sprache auch den Übersetzer.