Une inference, en essence, consomme de l'électricité et de la puissance de calcul, donc le résultat de l'inférence lui-même devient une forme d'actif.
90 % des requêtes d'inférence, en raison de leur similarité élevée, ne déclenchent pas le GPU, mais lisent directement les résultats d'inférence existants.
Si chaque lecture implique un coût très faible, inférieur à celui d'une inférence indépendante, par exemple : 0.0000001 eth, cela correspond parfaitement au comportement d'un agent IA en tant qu'économiste rationnel.
Ce type de paiement à haute fréquence et de faible montant ne peut êtr
Voir l'original