Coup de pouce pour améliorer la traduction automatique des documents de brevets
4 août 2011
L'OMPI a le plaisir de mettre à la disposition de la communauté
scientifique et de la communauté R & D un nouveau
produit
électronique qui contribuera au progrès des systèmes de traduction automatique destinés aux
documents de brevets.
Appelé " PATENTSCOPE Corpus Of Parallel Patent Applications" (Coppa), ce produit utilise des données issues de la base de recherche de brevets internationaux de l'OMPI pour fournir un "corpus" bilingue constitué de plus de 8 millions de segments de texte parallèles anglais/français, représentant plus de 170 millions de mots. De plus amples détails techniques sont disponibles ici. D'autres paires de langues seront ajoutées dans le futur si les données sources nécessaires deviennent disponibles en volume suffisant avec les droits de redistribution requis.
Appelé " PATENTSCOPE Corpus Of Parallel Patent Applications" (Coppa), ce produit utilise des données issues de la base de recherche de brevets internationaux de l'OMPI pour fournir un "corpus" bilingue constitué de plus de 8 millions de segments de texte parallèles anglais/français, représentant plus de 170 millions de mots. De plus amples détails techniques sont disponibles ici. D'autres paires de langues seront ajoutées dans le futur si les données sources nécessaires deviennent disponibles en volume suffisant avec les droits de redistribution requis.
La disponibilité - dans un format adapté - de ce vaste corpus va contribuer de façon
significative aux efforts consentis pour construire des systèmes de traduction automatiques plus
précis pour les textes de brevets ; meilleurs systèmes de traduction automatiques qui, à leur tour,
permettront d'affaiblir la barrière linguistique pour les inventeurs et les bureaux de brevets. Il
s'agit en définitive d'améliorer les performances du système international des brevets et
l'accessibilité à la bibliothèque globale d'informations technologiques qui y est
associée.
Les segments parallèles ont été obtenus en alignant les phrases des abrégés et
titres de vingt années de demandes de brevet internationales PCT publiées avec leurs
traductions (de 1990 à 2010), les traductions ayant été réalisées par des traducteurs
professionnels du domaine des brevets. Le produit qui en découle constitue une ressource de
grande valeur pour la recherche en linguistique, notamment pour des applications telles que
l'extraction terminologique, la construction de mémoires de traduction et la recherche en
traduction automatique.
L'OMPI met à disposition ce corpus gratuitement pour les institutions de recherche
académique et privée aux fins de recherche uniquement. En retour, ces institutions s'engagent à
partager leurs résultats publiés avec l'OMPI. Le produit est disponible à la vente au prix de 2000
CHF pour les autres usages, sous condition d'une clause de non redistribution.