Buscadores más inteligentes
Las nuevas técnicas de procesado del lenguaje natural (PLN) permitirán a los buscadores entender peticiones coloquiales y concretar sus respuestas
No basta con buscar, hay que hacerlo con sentido. Las técnicas de procesado de lenguaje natural (PLN) aplicadas a las herramientas de búsqueda de información suponen un gran avance. Simulan el comportamiento lingüístico humano. Con PLN pronto podremos ir a Internet, teclear '¿cuándo se descubrió la penicilina?' y obtener una respuesta concreta y no una lista de enlaces.
Las expectativas comerciales son enormes. 'Como Internet es un canal estratégico en la comunicación entre empresas y clientes, las perspectivas para las tecnologías de ingeniería lingüística no pueden ser mejores', dice Sergio González, director comercial de Thera. Según las previsiones de IDC, el mercado mundial de software de búsqueda y recuperación de información va a duplicarse en cuatro años. Moverá 722,4 millones de euros en 2003 y 1.615 millones en 2007. Más de la mitad del negocio estará en Norteamérica, mientras Europa Occidental irá ganando presencia, desde el 24% hasta el 33%. De hecho, grandes empresas españolas como La Caixa, Caja Madrid o Telefónica ya invierten en soluciones de PLN. Estas cifras incluyen todo tipo de herramientas de recuperación de información: además de PLN, están la gestión electrónica de documentos, la construcción de portales corporativos, la publicación electrónica y el filtrado colaborativo.
Hoy muy pocos buscadores incorporan técnicas avanzadas de PLN. Basta con hacer la prueba de introducir una palabra en singular o en plural para ver que los resultados son dispares. Algunos buscadores, como Google, Lycos o Alltheweb, sí incluyen funcionalidades sencillas, por ejemplo, para la corrección ortográfica de consultas. 'Actualmente estas técnicas permiten calcular mejor la relevancia de los documentos, categorizarlos automáticamente en grupos afines y generar automáticamente los resúmenes de los mismos', explica Anastasio Molano, director general de Denodo.
Empresas españolas con germen en distintas universidades, como Thera, Daedalus y Denodo, desarrollan tecnología PLN desde 1998
Algunas técnicas un poco más avanzadas pueden verse en Northern Light, que usa PLN para categorizar documentos y ofrecer catálogos especializados de información, y Ask Jeeves está logrando mejorar la ordenación por relevancia de los resultados. Google ha empezado a aplicar técnicas de extracción de información en el buscador beta Froggle, para acceder a catálogos de tiendas electrónicas. Tecnocerca, el motor de búsqueda de tecnología de la Generalitat de Cataluña, es un ejemplo de búsqueda semántica (sinónimos).
Por el momento, el mercado de PLN está poblado de pequeñas empresas. Las más veteranas son estadounidenses. Entre ellas resaltan Verity y Convera. En Europa destaca la suiza Albert, fundada en 1999, y participada por TAG Group, Bank Picted y FAST. Precisamente FAST, de origen noruego, es otro de los pesos pesados. De más reciente creación son la noruega CognIT y la holandesa Irion.
En España han surgido tres empresas: Daedalus, Denodo y Thera. En 2001 nace Thera a partir del Centro de Lenguaje y Computación (CLIC) de la Universidad de Barcelona. En sus tres primeros meses de funcionamiento facturó 150.250 euros, y 600.000 euros en 2002. Ofrece recursos de ingeniería lingüística a IBM y Q-Go. También suministra sistemas para la recuperación inteligente de información al motor Tecnocerca, así como sistemas de clasificación inteligente automática a la editorial Océano.
Denodo facturó 3 millones de euros en 2001 y nació de la mano de un grupo de investigadores de la UPM. Es la creadora del portal Biwe, y entre sus clientes están la Agencia EFE, BBVA y Banco Popular. Cuenta con alianzas comerciales con Azertia, Indra y Cestel. La tecnología de Denodo se está utilizando como base tecnológica en un piloto demostrativo en el ámbito de defensa y seguridad de la empresa pública Isdefe.
Los fundadores de Daedalus, que data de 1998, proceden de las universidades Politécnica y Autónoma de Madrid. Sus ventas en 2001 casi alcanzaron los 200.000 euros.
En España también hay distribuidores de otras soluciones de PLN. Davinci oferta desde 1994 la marca Verity. La tecnología de PLN de Verity pensada para la gran empresa se llama K2 Enterprise y la adecuada para las pymes es Ultraseek. Los precios de las licencias son muy dispares. 'Una solución Verity Ultraseek puede adquirirse con una inversión mínima de 10.000 euros, mientras que K2 Enterprise requiere una media de 60.000 euros', apunta Manuel Martínez, director de marketing de Davinci. El portal de la Generalitat de Cataluña (Gencat.net) y el portal del ciudadano (Administracion.es) ya cuentan con Verity.
PLN tiene una inmensa utilidad en las intranets corporativas, porque resuelve uno de sus males. 'Hay tanta información que crece y cambia tan rápidamente, que se hacen poco operativa para los empleados. Las herramientas que faciliten la recuperación de la información relevante pueden generar grandes ahorros de costes y hacer más eficientes estas aplicaciones', resalta Sergio González. A medio plazo, 'las técnicas de categorización automática de documentos que llevamos ya algún tiempo viendo en el ámbito corporativo deberían saltar también a los buscadores generalistas', vaticina Alberto Pan, director de tecnología de Denodo.
Las próximas generaciones de herramientas basadas en PLN superarán la ambigüedad. Igual que una persona que participa en un diálogo conoce los significados de las palabras, el buscador sabrá cómo afectan a la comunicación.
La investigación, en las universidades
Seis universidades copan la investigación más puntera en el campo del PLN: Alicante (UA), Barcelona (UB), País Vasco (UPV), Politécnica de Cataluña (UPC), Politécnica de Madrid (UPM) y UNED.La UNED investiga sobre el análisis sintáctico y superficial, la extracción automática de términos y la recuperación. La UA tiene un prototipo, llamado Sisco, de sistema de consulta a una base de datos geográfica en lenguaje natural. En la UB se centran en sistemas de procesamiento del lenguaje natural, sobre todo en la traducción automática. Por su parte, en la UPC están interesados en la constitución y manejo de recursos léxicos multilingües y la extracción de información de documentos. La UPV, por último, ha elaborado un buscador avanzado de textos en euskera llamado GaIn, y tiene un extractor de terminología en estado avanzado.
Hermes, un proyecto español
El proyecto Hermes (Hemerotecas Electrónicas: Recuperación Multilingüe y Extracción Semántica) recibe financiación pública. Está dedicado a la recuperación y extracción multilingüe de información en bases de datos documentales. Sus promotores son el grupo de procesamiento del lenguaje natural de la UNED, de la Universidad del País Vasco y de la Politécnica de Cataluña.Su objetivo es crear dos aplicaciones de acceso a la información multilingüe. La primera es un sistema de consulta para una hemeroteca digital. Aceptará consultas y ofrecerá los resultados en cuatro idiomas. La otra aplicación es un sistema de búsqueda multilingüe de noticias en línea capaz de localizarlas en cuatro idiomas a partir de una consulta en uno de ellos.Hermes ya tiene un motor de búsqueda multilingüe en funcionamiento: Website Term Broser (rayuela.lsi.uned.es/wtb).