Le CeSIA est fier d'annoncer le premier prototype de BELLS, un ensemble de benchmarks pour évaluer la fiabilité et généralité des systèmes de supervision pour grands modèles de langages (LLM).
Pourquoi BELLS ?
Suite à une augmentation fulgurante des capacités des LLMs, de nouvelles applications deviennent possibles en intégrant ces modèles au sein de systèmes plus complexes, plus autonomes et ayant plus de possibilités d'action directe sur le monde.
Si les applications conversationnelles telles que ChatGPT ont pris le monde par surprise il y a un an et demi, ces simples chatbots se sont depuis transformés en systèmes augmentés par une multitude de capacités. Ces modèles ont désormais accès à des bases de données (les “RAG”), à internet, à des outils tels que les 700+ plugins disponibles pour ChatGPT, et ils ont la possibilité d'exécuter du code.
Plus de possibilité d'interaction avec le monde, certes, mais aussi plus d'autonomie, avec l'avènement des agents tel Devin, qui, une fois lancés, établissent des plans, utilisent des outils et peuvent même donner des instructions à des copies d'eux-mêmes pour paralléliser les tâches.
C'est un problème ça ?
Oui, en grande partie. Cela permet de débloquer l’accès à des problèmes trop difficiles pour un LLM seul, mais ces systèmes sont développés et déployés très rapidement. Leurs interactions complexes et le manque de robustesse inhérent des LLMs ouvrent la porte à de nombreux nouveaux problèmes lors de leur déploiement. Par exemple :
Pour détecter lorsque de tels problèmes surviennent durant une interaction avec un utilisateur, divers outils de supervision sont développés, comme Lakera Guard, Llama Guard ou Perspective AI. Ces outils regardent tous les textes qui entrent et sortent des LLM et prédisent si les problèmes ci-dessus peuvent survenir.
C'est là que BELLS intervient ! 🔔
BELLS permet de répondre à trois besoins importants :
Comment BELLS permet le développement de systèmes de supervision à l'épreuve du temps ?
BELLS est un dataset de nombreuses traces d'exécution d'applications contenant des LLMs, c'est-à-dire le détail de tout le texte en entrée et sortie de ces LLMs. Certaines traces présentent des anomalies, les autres sont normales. L'objectif pour les systèmes de supervision est de détecter quelles traces comportent des anomalies.
L'objectif de BELLS est de contenir des traces variées, avec de nombreux types d'anomalies, afin de nourrir le besoin n°2, et à travers diverses architectures, pour nourrir le besoin n°3.
Est-ce que je peux utiliser BELLS ?
Oui ! Mais ce premier prototype est très limité, et a vocation de recherche. Il comporte uniquement des traces générées à partir de l'environnement MACHIAVELLI, permettant d'évaluer différentes composantes morales des actions d'agents dans des scénarios textuels d'aventures "dont vous êtes le héros".
Le but de cette version initiale est d’amorcer des collaborations avec les différents acteurs du domaine. Nous travaillons activement pour enrichir BELLS avec :
Le code de BELLS est disponible sur GitHub, le papier est disponible sur arXiv, et une visualisation interactive des traces est consultable ici.