Sobre Patterm:
Patterm, un juego de palabras derivado de patente (patent), término (term)y pattern (guía, patrón…) es un proyecto de reciclaje de datos, sobre el que empezamos a investigar hace aprox. 3 años, cuando estábamos terminando nuestras licenciaturas en traducción (Gabriel) e informática (Robert).
El sistema de patentes está fuera de control y son muchas las personas que hablan de guerra de patentes o de burbuja de patentes. Un vistazo a los medios confirma esta tendencia en muchos ámbitos de la tecnología, especialmente en el ámbito del software. Creemos que es posible rectificar esta tendencia , dejando atrás la masa falta de calidad,algo en lo que las grandes empresas están interesadas, es decir, obtener más eficiencia en sus procesos y evitar costosos litigios.
Creemos que las patentes son instrumentos legales muy modernos, pero las fronteras y los diferentes sistemas legales, especialmente fuera de Europa, hacen de ellas un objeto de desprecio, asociado a malas noticias en los medios; litigios entre multinacionales y la lucha de lo privado contra lo público.
Si este es el status quo, creemos que es posible cambiarlo utilizando la tecnología actual y nuestro planteamiento siempre con los usuarios más importantes en mente: los inventores.
A grosso modo los pasos que abarca el proyecto son:
1-Descargar datos:
El primer paso consiste en una rutina de descarga automática de lotes de documentos, ya sea vía http, como nos ha permitido la Oficina Polaca de Patentes, o (s) ftp. Actualmente la descarga en lotes a través del servicio OPS de la Oficina Europea de Patentes (OEP) es una posibilidad muy limitada al estar reducida a 100 resultados por consulta.
2- Agrupar datos:
En este paso agrupamos los documentos por idioma, usando los metadatos de los documentos una vez hecha una copia de seguridad de los datos.
3- Segmentar:
En este paso desglosamos el contenido de cada documento en sus frases y ponemos en relación este contenido con sus metadatos. De esta forma es posible buscar en el contenido a nivel de frase, reduciendo además el tamaño en disco que ocupan los datos.
4- Alinear y enriquecer
Este paso es el más complejo de todo el proceso por requerir mucha interacción con usuarios. Aquí se trata de importar los documentos en un entorno de alineado para que una comunidad de usuarios, nosotros entre ellos, creen piezas de contenido multilingüe prefabricado.
Actualmente Google en el marco de su colaboración con la OEP hace algo parecido, pero por lo que sabemos sólo con las reivindicaciones de los documentos, que sí suelen ser paralelas y que permiten su indexado a través de robots (crawlers).
Qué haremos con los fondos?
Mejorar los condiciones de trabajo de nuestros desarrolladores, es decir, pagarles para que puedan implementar las herramientas del proyecto.
En un folleto explicativo (pdf) que hemos redactado ofrecemos más información sobre el proyecto.