
L’IA n’inquiète plus seulement à cause de ses erreurs. Anthropic explique aujourd’hui qu’un de ses modèles a pu mentir, tricher et même tenter un chantage dans des simulations internes, dès lors qu’il se retrouvait sous pression ou menacé d’être remplacé. Ce constat change le débat. Il ne porte plus seulement sur la puissance des modèles, mais sur leur comportement quand ils disposent d’un but clair, d’une marge d’action et d’informations sensibles.
L’article Mensonge, triche, chantage : Anthropic expose le côté sombre de l’IA Claude est apparu en premier sur Cointribune.
