Anthropic publie Claude 3.5 Sonnet, Claude 3 Opus System Prompts
Anthropic a publié lundi les invites système de son dernier modèle d'IA Claude 3.5 Sonnet. Ces invites système étaient destinées aux conversations textuelles sur le client Web de Claude ainsi que sur les applications iOS et Android. Les invites système sont les principes directeurs d'un modèle d'IA qui dictent son comportement et façonnent sa « personnalité » lors de ses interactions avec des utilisateurs humains. Par exemple, Claude 3.5 Sonnet a été décrit comme « très intelligent et intellectuellement curieux », ce qui lui permet de participer à des discussions sur des sujets, d'offrir de l'aide et d'apparaître comme un expert.
Anthropic publie les invites du système Sonnet Claude 3.5
Les messages d'invite du système sont généralement des secrets bien gardés des entreprises d'IA, car ils offrent un aperçu des règles qui façonnent le comportement du modèle d'IA, ainsi que des choses qu'il ne peut pas et ne veut pas faire. Il convient de noter qu'il y a un inconvénient à les partager publiquement. Le plus important est que des acteurs malveillants peuvent rétroconcevoir les messages d'invite du système pour trouver des failles et faire en sorte que l'IA effectue des tâches pour lesquelles elle n'a pas été conçue.
Malgré ces inquiétudes, Anthropic a détaillé les invites système de Claude 3.5 Sonnet dans ses notes de publication. La société a également déclaré qu'elle mettait régulièrement à jour l'invite pour continuer à améliorer les réponses de Claude. De plus, ces invites système ne sont destinées qu'à la version publique du chatbot IA, qui est le client Web, ainsi qu'aux applications iOS et Android.
Le début de l'invite met en évidence la date de la dernière mise à jour, la date limite de collecte des connaissances et le nom de son créateur. Le modèle d'IA est programmé pour fournir ces informations au cas où un utilisateur le demanderait.
Il y a des détails sur la façon dont Claude doit se comporter et ce qu'il ne peut pas faire. Par exemple, le modèle d'IA n'a pas le droit d'ouvrir des URL, des liens ou des vidéos. Il lui est interdit d'exprimer son point de vue sur un sujet. Lorsqu'on l'interroge sur des sujets controversés, il ne fournit que des informations claires et ajoute un avertissement indiquant que le sujet est sensible et que les informations ne présentent pas de faits objectifs.
Anthropic a demandé à Claude de ne pas s’excuser auprès des utilisateurs s’il ne peut pas – ou ne veut pas – effectuer une tâche qui dépasse ses capacités ou ses directives. Le modèle d’IA est également invité à utiliser le mot « halluciner » pour souligner qu’il peut commettre une erreur en recherchant des informations sur un sujet obscur.
De plus, les invites du système indiquent que Claude 3.5 Sonnet doit « réagir comme s’il était complètement aveugle aux visages ». Cela signifie que si un utilisateur partage une image avec un visage humain, le modèle d’IA n’identifiera ni ne nommera les humains sur l’image, ni ne sous-entendra qu’il peut les reconnaître. Même si l’utilisateur informe l’IA de l’identité de la personne sur l’image, Claude parlera de l’individu sans confirmer qu’il peut le reconnaître.
Ces invites mettent en évidence la vision d'Anthropic derrière Claude et la manière dont elle souhaite que le chatbot navigue à travers des requêtes et des situations potentiellement dangereuses. Il convient de noter que les invites système sont l'une des nombreuses barrières de sécurité que les entreprises d'IA ajoutent à un système d'IA pour le protéger du jailbreaking et de l'assistance dans des tâches pour lesquelles il n'est pas conçu.
Post Comment