SEO

US Copyright Office cite un risque juridique à chaque étape de l’IA générative

U.S. Copyright Office Cites Legal Risk At Every Stage Of Generative AI

Le bureau des droits d’auteur des États-Unis a publié une version pré-publication d’un rapport sur l’utilisation du matériel protégé par le droit d’auteur pour la formation de l’IA générative, décrivant un cas juridique et factuel qui identifie les risques de droit d’auteur à chaque étape du développement génératif de l’IA.

Le rapport a été créé en réponse aux préoccupations publiques et du Congrès concernant l’utilisation du contenu protégé par le droit d’auteur, y compris les versions piratées, par les systèmes d’IA sans obtenir d’abord. Bien que le Copyright Office ne prenne pas de décisions légales, les rapports qu’il crée offrent des conseils juridiques et techniques qui peuvent influencer la législation et les décisions judiciaires.

Le rapport propose quatre raisons pour lesquelles les entreprises technologiques de l’IA devraient être concernées:

  1. Le rapport indique que de nombreux actes d’acquisition de données, le processus de création de ensembles de données à partir de travaux protégés par le droit d’auteur, et la formation pourraient «constituer une violation prima facie».
  2. Il remet en question la défense de l’industrie commune que les modèles de formation n’implique pas de «copie», notant que le processus de création d’ensembles de données implique la création de plusieurs copies, et que les améliorations des poids du modèle peuvent également contenir des copies de ces œuvres. Le rapport cite des rapports sur les cas où AI reproduit des œuvres protégées par le droit d’auteur, soit des copies de mot ou «presque identiques».
  3. Il indique que le processus de formation implique le droit de reproduction, l’un des droits exclusifs accordés pour souligner que la mémorisation et la régurgitation du contenu protégé par le droit d’auteur peuvent constituer une contrefaçon, même si elles sont involontaires.
  4. L’utilisation transformatrice, où elle ajoute un nouveau sens à une œuvre originale, est une considération importante dans l’analyse de l’utilisation équitable. Le rapport reconnaît que «certaines utilisations des œuvres protégées par le droit d’auteur dans la formation d’IA sont susceptibles d’être transformatrices», mais elle «n’est pas d’accord» avec l’argument selon lequel la formation de l’IA est transformatrice simplement parce qu’elle ressemble à «l’apprentissage humain», comme lorsqu’une personne lit un livre et en apprend.

Implications des droits d’auteur à chaque étape du développement de l’IA

La partie la plus accablante du rapport est peut-être où il indique qu’il peut y avoir des problèmes de droits d’auteur à chaque étape du développement de l’IA et répertorie chaque étape du développement et ce qui pourrait ne pas être avec elle.

« A. Collecte et conservation des données

Les étapes nécessaires pour produire un ensemble de données de formation contenant des œuvres protégées par le droit d’auteur impliquent clairement le droit de reproduction…

B. formation

Le processus de formation implique également le droit de reproduction. Premièrement, la vitesse et l’échelle de la formation obligent les développeurs à télécharger l’ensemble de données et à le copier dans un stockage haute performance avant la formation.96 Deuxièmement, pendant la formation, les travaux ou les parties substantielles des œuvres sont temporairement reproduites car elles sont «montrées» au modèle en lots.

Ces copies peuvent persister assez longtemps pour porter atteinte au droit de reproduction, 160 selon le modèle en question et les implémentations matérielles et logiciels spécifiques utilisées par les développeurs.

Troisièmement, le processus de formation – la fourniture d’exemples de formation, la mesure des performances du modèle contre les résultats attendus et la mise à jour de manière itérative des poids pour améliorer les performances – peut entraîner des poids du modèle qui contiennent des copies des œuvres dans les données de formation. Si c’est le cas, la copie ultérieure des poids du modèle, même par des parties non impliquées dans le processus de formation, pourrait également constituer une violation prima facie.

C.

Le chiffon implique également la reproduction des travaux protégés par le droit d’auteur.110 En règle générale, Rag fonctionne de deux manières. Dans l’un, le développeur AI copie du matériel dans une base de données de récupération, et le système d’IA génératif peut ensuite accéder à cette base de données pour récupérer le matériel pertinent et le fournir au modèle ainsi que l’invite de l’utilisateur.111 Dans l’autre, le système récupère le matériel à partir d’une source externe (par exemple, un moteur de recherche ou un site Web spécifique) .181 Les deux méthodes impliquant une réduction, y compris lorsque le système Copies System a rétracté le contenu de la production.

D. Sorties

Les modèles d’IA génératifs sortent parfois du matériau qui reproduit ou ressemble étroitement aux œuvres protégées par le droit d’auteur. Les utilisateurs ont démontré que l’IA génératrice peut produire des répliques proches des images fixes à partir de films, 112 caractères copysables, 113 ou du texte à partir de nouvelles.114 De telles sorties portent probablement sur la reproduction et, dans la mesure où ils adaptent les originaux, le droit de préparer des œuvres dérivées. « 

Le rapport trouve les risques d’infraction à chaque étape du développement génératif de l’IA, et bien que ses résultats ne soient pas juridiquement contraignants, ils pourraient être utilisés pour créer une législation et servir de conseils aux tribunaux.

Plats à emporter

  • Formation de l’IA et violation du droit d’auteur:
    Le rapport fait valoir que l’acquisition de données et la formation modèle peuvent impliquer une copie non autorisée, constituant peut-être une «violation prima facie».
  • Rejet des défenses de l’industrie:
    Le Copyright Office conteste l’industrie de l’IA commune affirme que la formation n’implique pas la copie et que la formation de l’IA est analogue à l’apprentissage humain.
  • Utilisation équitable et utilisation transformatrice:
    Le rapport n’est pas d’accord avec l’application large de l’utilisation transformatrice comme défense, en particulier lorsqu’elle est basée sur des comparaisons avec la cognition humaine.
  • Préoccupation de toutes les étapes du développement de l’IA:
    Les préoccupations du droit d’auteur sont identifiées à chaque étape du développement de l’IA, de la collecte de données, de la formation, de la génération auprès de la récupération (RAG) et des résultats du modèle.
  • Mémorisation et poids du modèle:
    L’Office avertit que les modèles d’IA peuvent conserver le contenu protégé par le droit d’auteur en poids, ce qui signifie que même l’utilisation ou la distribution de ces poids pourrait être infiltrée.
  • Reproduction de sortie et travaux dérivés:
    La capacité de l’IA à générer des résultats presque identiques (par exemple, des images fixes, des personnages ou des articles) soulève des préoccupations concernant les violations de la reproduction et des droits de travail dérivés.
  • Risque d’infraction spécifique au chiffon:
    Les deux méthodes de RAG, la copie du contenu dans une base de données ou la récupération à partir de sources externes, sont décrites comme impliquant des reproductions potentiellement violées.

Le rapport US Copyright Office décrit plusieurs façons dont le développement génératif de l’IA peut porter atteinte à la loi sur le droit d’auteur, ce qui remet en question la légalité de l’utilisation de données protégées par le droit d’auteur sans autorisation à chaque étape technique, de la création de l’ensemble de données aux sorties du modèle. Il rejette l’utilisation de l’analogie de l’apprentissage humain en tant que défense et la large application de l’industrie de l’utilisation équitable. Bien que le rapport n’ait pas la même force qu’une conclusion judiciaire, le rapport peut être utilisé comme guide pour les législateurs et les tribunaux.

Image en vedette par Shutterstock / Treecha

Author

Boosteseo

Leave a comment