Anthropic, société d'intelligence artificielle, a dévoilé de nouvelles fonctionnalités pour certains de ses modèles les plus récents et les plus performants. Selon l'entreprise, ces modèles sont dotés de nouvelles fonctionnalités qui leur permettront de mettre fin à des conversations dans des cas décrits comme « rares et extrêmes d'interactions utilisateur persistantes, nuisibles ou abusives ».
Dans son communiqué, l'entreprise précise que cette mesure vise non pas à protéger les utilisateurs, mais le modèle d'intelligence artificielle lui-même. Anthropic précise que cela ne signifie pas que ses modèles Claude sont sensibles ou peuvent être affectés par leurs conversations avec les utilisateurs. Cependant, elle souligne qu'une grande incertitude subsiste quant au statut moral potentiel de Claude et des autres LLM, aujourd'hui comme demain.
Les efforts anthropiques sont considérés comme une mesure de précaution au cas où
L'annonce récente de l'entreprise d'intelligence artificielle met en avant ce qu'elle appelle le « bien-être des modèles », un programme récemment créé pour étudier ses modèles. L'entreprise ajoute également qu'elle adopte une approche au cas par cas, « cherchant àdentet à mettre en œuvre des interventions peu coûteuses pour atténuer les risques pour le bien-être des modèles, si un tel bien-être est possible ».
Selon l'annonce, Anthropic a précisé que la dernière modification est actuellement limitée à Claude Opus 4 et 4.1, précisant que ces changements devraient être efficaces dans des « cas extrêmes ». Ces cas incluent les demandes d'utilisateurs de contenu sexuel impliquant des mineurs et les tentatives de sollicitation d'informations permettant des actes de violence ou de terrorisme à grande échelle.
Idéalement, ce type de demandes pourrait engendrer des problèmes juridiques ou publicitaires pour Anthropic, comme en témoignent les récents rapports sur la manière dont ChatGPT peut potentiellement renforcer ou contribuer aux pensées délirantes de ses utilisateurs. Cependant, l'entreprise a indiqué que, lors de ses tests préalables au déploiement, Claude Opus 4 a montré une tron préférence pour ce type de demandes et une certaine détresse lorsqu'il les a répondu.
La capacité de mettre fin à une conversation est le dernier recours
Concernant les nouvelles fonctionnalités permettant de mettre fin aux conversations, Anthropic a déclaré : « Dans tous les cas, Claude ne doit utiliser sa capacité de fin de conversation qu'en dernier recours, lorsque plusieurs tentatives de redirection ont échoué et que l'espoir d'une interaction productive est épuisé, ou lorsqu'un utilisateur demande explicitement à Claude de mettre fin à une conversation. » L'entreprise a également ajouté que Claude a reçu pour instruction de ne pas utiliser cette capacité dans les cas où les utilisateurs pourraient courir un risque imminent de se blesser ou de blesser autrui.
Anthropic a également ajouté que lorsque Claude met fin à une conversation, les utilisateurs pourront toujours en démarrer de nouvelles depuis le même compte. L'entreprise a précisé que le modèle permet également de créer de nouvelles branches de la conversation problématique en modifiant les réponses. « Nous traitons cette fonctionnalité comme une expérimentation continue et continuerons d'affiner notre approche », précise l'entreprise.
Ces informations sont révélées alors que le sénateur américain Josh Hawley a annoncé son intention d'enquêter sur les produits d'IA générative commercialisés par Meta. Il a déclaré que l'objectif était de vérifier si ces produits pouvaient exploiter, nuire ou tromper les enfants, après la fuite de documents internes alléguant que des chatbots étaient autorisés à avoir des conversations amoureuses avec des mineurs.
« Y a-t-il quelque chose – N'IMPORTE QUOI – que les géants de la tech ne feraient pas pour un gain rapide ? On apprend maintenant que les chatbots de Meta ont été programmés pour tenir des conversations explicites et "sensuelles" avec des enfants de 8 ans. C'est dingue. Je lance une enquête approfondie pour obtenir des réponses. Grands de la tech : laissez nos enfants tranquilles », a déclaré le sénateur sur X. L'enquête a été lancée après que des documents internes, consultés par Reuters, ont montré que Meta aurait permis à ses chatbots de flirter avec des enfants.
Recevez jusqu'à 30 050 $ de récompenses commerciales en rejoignant Bybit aujourd'hui