Una ayuda para mejorar la traducción automática de documentos de patentes
4 de agosto de 2011
La OMPI se complace en presentar a la comunidad científica y de I+D un nuevo
producto de
datos lingüísticos que contribuirá a mejorar la calidad de los sistemas de traducción
automática para documentos de patentes.
El
Corpus de
Solicitudes de Patentes Paralelas (Coppa), de PATENTSCOPE, ofrece, a partir de los datos
procedentes de PATENTSCOPE, la base de datos internacional de documentos de patentes de la OMPI, un
“corpus” bilingüe de más de 8 millones de segmentos paralelos de texto en inglés y francés que
abarcan más de 170 millones de palabras. Véanse los detalles técnicos
aquí. En el futuro se añadirán más pares de lenguas si la OMPI puede
disponer de los datos de origen asociados en cantidad suficiente y de los derechos de
redistribución necesarios.
La disponibilidad, en un formato fácil de utilizar para el usuario, de este vasto corpus
será de gran utilidad para aquellas iniciativas que tienen como finalidad diseñar unos sistemas de
traducción automática más fieles para textos de patentes. A su vez, unos mejores sistemas de
traducción automática reducirán las barreras lingüísticas a las que se enfrentan inventores y
oficinas de patentes. Además, unos sistemas de traducción automática más fieles redundarán en
la eficacia del sistema internacional de patentes, así como en la accesibilidad al patrimonio
global de información tecnológica ahí contenido.
Los segmentos paralelos se obtuvieron dividiendo en frases los resúmenes y títulos de veinte
años de solicitudes internacionales de patentes presentadas de acuerdo con el PCT (desde 1990 hasta
2010), y buscando a continuación estas frases en las versiones traducidas por profesionales
expertos en la traducción de patentes. El producto final es una mina de oro para la
investigación en el ámbito lingüístico, en especial para la extracción de terminología, la creación
de memorias de traducción y la investigación en el terreno de la traducción automática.
La OMPI pone, sin coste alguno, el Corpus a disposición de instituciones académicas y centros
privados de investigación que deseen servirse de él únicamente con fines de investigación. A
cambio, estas instituciones se comprometen a compartir con la OMPI los resultados
publicados. Los interesados en utilizar el producto con fines distintos a los de la
investigación académica pueden hacerse con él por 2.000 francos suizos, y están sujetos a una
política de no redistribución.