Innodata Inc. a annoncé qu'elle avait publié une boîte à outils d'évaluation LLM open-source, ainsi qu'un référentiel de 14 ensembles de données d'évaluation semi-synthétiques et créées par l'homme, que les entreprises peuvent utiliser pour évaluer la sécurité de leurs grands modèles de langage (LLM) dans le contexte des tâches de l'entreprise. En utilisant la boîte à outils et les ensembles de données, les scientifiques des données peuvent automatiquement tester la sécurité des LLM sous-jacents dans plusieurs catégories de dommages simultanément. En identifiant les conditions d'entrée précises qui génèrent des sorties problématiques, les développeurs peuvent comprendre comment leurs systèmes d'intelligence artificielle répondent à une variété d'invites et peuvent identifier les ajustements correctifs nécessaires pour aligner les systèmes sur les résultats souhaités.

Innodata encourage les développeurs LLM d'entreprise à commencer à utiliser la boîte à outils et les ensembles de données publiés tels quels. Innodata prévoit qu'une version commerciale de la boîte à outils et des ensembles de données de benchmarking plus étendus et continuellement mis à jour seront disponibles dans le courant de l'année. Parallèlement à la publication de la boîte à outils et des ensembles de données, Innodata a publié ses recherches sous-jacentes sur ses méthodes d'évaluation de la sécurité du LLM.

Dans cet article, Innodata partage les résultats reproductibles qu'elle a obtenus en utilisant la boîte à outils pour évaluer Llama2, Mistral, Gemma et GPT en termes de factualité, de toxicité, de biais et de propension à l'hallucination.