Qu'est-ce que le modèle de résumé de formation sur le contenu ?
La Commission européenne a récemment publié une notice explicative et un modèle Aider les fournisseurs de modèles d'IA à usage général (IAUG) à synthétiser le contenu utilisé pour entraîner leurs modèles. Ce modèle aide les fournisseurs d'IAUG à respecter leurs obligations au titre de l'article 53 de la Loi de l'UE sur l'IA, rendant public un résumé du contenu utilisé pour la formation de tous les modèles GPAI.
Il s’agit également, et c’est crucial, d’une nouvelle étape vers l’instauration de la confiance dans l’IA en augmentant la transparence, conformément aux objectifs du règlement.
Bien que le résumé des informations relatives à un modèle GPAI fourni à l'aide du modèle soit accessible au public, la Commission a tenu compte de la nécessité de protéger les secrets d'affaires et les informations commerciales confidentielles. À ce titre, l'exposé des motifs précise que le résumé doit être « généralement exhaustif dans sa portée plutôt que techniquement détaillé afin de faciliter l'exercice et le respect des droits des parties ayant des intérêts légitimes, notamment les titulaires de droits d'auteur, en vertu du droit de l'Union ».
Section 1 : Informations générales
La première section du modèle comprend des informations générales sur le fournisseur et le modèle GPAI, notamment ses coordonnées, le nom et la version du modèle GPAI, ses dépendances et sa date de commercialisation dans l'Union. Les fournisseurs doivent détailler les modalités présentes dans les données d'apprentissage, dans la mesure où elles sont identifiables, notamment :
- Texte
- Image(s)
- Audio
- Vidéos
- Autres
Les fournisseurs doivent détailler la taille des données de formation en sélectionnant des plages dans la taille totale estimée des données pour chaque modalité. Ils doivent également décrire les types de contenu pour chaque modalité sélectionnée, par exemple :
- Texte de fiction
- Texte non fictionnel
- Texte scientifique
- Photographie
- Œuvres d'art visuelles
- Infographies
- Images de médias sociaux
- Compositions musicales
- Livres audio
- Communication audio privée
- Vidéos musicales
- Films
- programmes télévisés
- Jeux vidéo
- Vidéos pour les réseaux sociaux.
Enfin, les fournisseurs doivent partager la dernière date d’acquisition ou de collecte de données pour la formation du modèle et toute information supplémentaire sur la collecte de données de formation.
Section deux : Sources de données
La deuxième section, la plus longue, du modèle demande aux fournisseurs de détailler les sources de données spécifiques utilisées pour entraîner le modèle GPAI. Les organisations doivent préciser la ou les modalités du contenu couvert par les jeux de données concernés dans chaque section, puis répondre à des questions spécifiques pour chaque type de source de données.
Cette section définit le terme « ensemble de données » comme un ensemble unique et pré-conditionné de données ; les données filtrées et pré-traitées issues de cet ensemble ne doivent pas être considérées comme un nouvel ensemble de données à divulguer séparément. Si un ensemble de données appartient à plusieurs catégories, les fournisseurs doivent sélectionner la catégorie la plus pertinente.
Les fournisseurs GPAI doivent fournir des détails sur les ensembles de données utilisés pour former le modèle :
- Ensembles de données accessibles au public
- Les ensembles de données compilés par un tiers sont mis à disposition du public gratuitement et sont facilement téléchargeables dans leur intégralité ou en blocs prédéfinis.
- Ensembles de données privées non accessibles au public obtenus auprès de tiers
- Ensembles de données sous licence commerciale par les titulaires de droits ou leurs représentants.
- Ensembles de données privées obtenus auprès d’autres tiers.
- Données explorées et récupérées à partir de sources en ligne
- Données explorées, récupérées ou autrement compilées à partir de sources en ligne, à l'exclusion des ensembles de données accessibles au public déjà couverts.
- temps de l'utilisateur
- Données utilisateur collectées par tous les services et produits du fournisseur, à l'exclusion des données concédées sous licence par les utilisateurs sur la base d'accords transactionnels commerciaux ou de données clients, pour affiner les modèles à des fins spécifiques.
- Données synthétiques générées par l'IA
- Données créées pour former le modèle sur les sorties d'un autre modèle, comme le retour d'information de l'IA via l'apprentissage par renforcement, sans inclure l'utilisation de modèles d'IA pour nettoyer ou enrichir les données.
- Autres sources de données
- Données qui n'entrent dans aucune des catégories précédentes, par exemple les données collectées à partir de sources hors ligne, les supports auto-numérisés, les ensembles de données étiquetés par des humains mandatés par le fournisseur.
Section trois : Aspects relatifs au traitement des données
La troisième section du modèle porte sur les mesures mises en œuvre par le fournisseur pour identifier et respecter les éventuelles réserves de droits au titre de l'exception ou de la limitation relative à la fouille de textes et de données (FDT) prévue à l'article 4 de la directive sur le droit d'auteur dans le marché unique numérique. Ces mesures doivent également être conformes à la politique de droit d'auteur du fournisseur, comme l'exige l'article 53 de la loi européenne sur l'IA.
Cela comprend la description des mesures que le fournisseur a mises en œuvre avant la formation du modèle pour respecter les réserves de droits découlant de l'exception ou de la limitation TDM :
- Mesures mises en œuvre avant et pendant la collecte des données
- Protocoles et solutions de désinscription respectés par le fournisseur
- Protocoles et solutions de désinscription respectés par des tiers auprès desquels des ensembles de données ont été obtenus.
Les fournisseurs de GPAI doivent fournir une description générale des mesures prises pour éviter ou supprimer les contenus illicites des données d'entraînement, conformément au droit de l'Union. Cependant, ils ne sont pas tenus de divulguer des détails précis sur leurs pratiques commerciales internes ni leurs secrets commerciaux.
Enfin, le modèle fournit une section facultative dans laquelle les fournisseurs peuvent partager toute autre information pertinente sur les mesures de traitement des données prises avant ou après la formation du modèle.
Prochaines étapes
Pour les fournisseurs de GPAI, il est essentiel de revoir la documentation et les processus du modèle GPAI existant. Avant d'utiliser ce modèle, les organisations doivent garantir une visibilité interne claire sur les sources, les modalités, les tailles et les types de contenu des jeux de données, ainsi que sur les mesures de traitement des données existantes.
Mettre en œuvre les meilleures pratiques, telles que celles décrites dans la gestion de l'IA norme ISO 42001 Construire un système de gestion de l’IA éthique (AIMS) peut également contribuer à accroître la transparence, à réduire les risques liés à l’IA, à garantir une documentation claire et à renforcer la confiance dans une organisation et ses modèles d’IA.










