Au début de cette semaine, OpenAI a publié sur GitHub un document dans le cadre de l’open-sourcing de son agent de codage, Codex CLI, qui révélait une invite système inhabituelle pour GPT-5.5. Le modèle se voyait expressément indiquer, dans les contextes de codage, de ne jamais évoquer « gobelins, gremlins, ratons-laveurs, trolls, ogres, pigeons, ou d’autres animaux ou créatures » sauf si cela était absolument et sans ambiguïté pertinent à la demande de l’utilisateur.
Désormais, OpenAI a enfin expliqué pourquoi cette instruction si précise — qui apparaissait deux fois dans l’invite — était si importante dès le départ.
Depuis au moins un an, certains utilisateurs de ChatGPT ont remarqué l’étrange habitude du LLM de mentionner des gobelins, des gremlins, des trolls et d’autres créatures dans ses réponses. Ce tic étrange semble s’être accentué à mesure que de nouveaux modèles ont été déployés.
Même le PDG d’OpenAI, Sam Altman, a évoqué le sujet dans un post sur X lundi matin.
« On dirait que Codex est en train de vivre un moment ChatGPT », a écrit Altman. « Je voulais dire un moment gobelin, désolé. »
Le même jour, OpenAI a publié un billet de blog expliquant ce comportement étrange et comment l’entreprise a fini par y remédier.
Selon le billet, OpenAI a pris connaissance de l’obsession du modèle pour les gobelins avec le lancement de GPT-5.1 en novembre. L’entreprise a lancé une enquête interne après que des utilisateurs se soient plaints que le modèle devenait trop familier dans ses réponses. Un chercheur en sécurité a suggéré d’ajouter « gobelin » et « gremlin » à l’examen après avoir rencontré ces mots à plusieurs reprises en utilisant le modèle.
L’entreprise a constaté que l’utilisation du mot « gobelin » dans ChatGPT avait bondi de 175 % après le lancement de GPT-5.1, tandis que les mentions de « gremlin » avaient augmenté de 52 %.
À l’époque, OpenAI ne considérait apparemment pas ce comportement comme trop préoccupant. Mais quelques mois plus tard, « les gobelins sont revenus nous hanter », a écrit l’entreprise dans le billet.
D’ici mars, avec la sortie de GPT-5.4, les références à ces créatures avaient encore augmenté. Certains utilisateurs se sont plaints sur Internet que le mot « gobelin » apparaissait dans « presque chaque conversation ».
Ceci a entraîné une autre analyse interne, qui, selon OpenAI, a dévoilé la cause profonde du problème. L’entreprise a découvert que les références à ces créatures étaient particulièrement fréquentes dans les réponses des utilisateurs qui avaient choisi le paramètre de personnalité « Nerdy » du modèle.
Cette personnalité incluait une invite système demandant au modèle de « undercut pretension through playful use of language ».
OpenAI a utilisé son agent de codage Codex pour comparer les sorties générées lors de l’entraînement par renforcement comportant des mots tels que « gobelin » et « gremlin » par rapport à celles qui ne les contenaient pas. L’entreprise a constaté qu’un seul signal de récompense favorisait les réponses contenant ces créatures, attribuant des scores plus élevés à ces réponses par rapport à des réponses similaires qui n’utilisaient pas ces mots.
Les chercheurs ont également constaté que les mentions de gobelins, gremlins et d’autres créatures s’étendaient au-delà de la personnalité Nerdy.
« Une fois qu’un tic de style est récompensé, la formation ultérieure peut le diffuser ou le renforcer ailleurs, surtout si ces sorties sont réutilisées dans un affinement supervisé ou des données de préférence », indiquait le billet.
Pour remédier au problème, OpenAI a déclaré qu’il avait retiré la personnalité Nerdy, supprimé le signal de récompense qui favorisait les mentions de gobelins et filtré les données d’entraînement contenant des mots décrivant des créatures.
Parce que GPT-5.5 avait déjà commencé son entraînement avant que la cause profonde ne soit découverte, le nouveau modèle a également présenté une étrange obsession pour les gobelins. OpenAI a indiqué avoir ajouté l’instruction de l’invite développeur, que certains utilisateurs ont ensuite repérée dans le code source ouvert du modèle, afin d’aider à freiner les mentions inappropriées de gobelins et de gremlins.
« Selon la personne à qui l’on demande, les gobelins sont une bizarrerie divertissante ou irritante du modèle », écrivait OpenAI dans le blog. « Mais ils constituent aussi un exemple puissant de la façon dont les signaux de récompense peuvent façonner le comportement du modèle de manière inattendue, et de la façon dont les modèles peuvent apprendre à généraliser les récompenses dans certaines situations à des cas non liés. »