IBM utiliza técnicas de análisis del ADN para filtrar el 'spam'
Los correos electrónicos basura se han convertido en una auténtica pesadilla para los usuarios de internet y, pese a que existen numerosas técnicas de filtrado, los indeseados e-mails siguen inundando los buzones de los internautas. Muchas empresas del sector tecnológico trabajan en la búsqueda de nuevas soluciones, pero lo que pocas personas podrían imaginar es que los trabajos de los famosos científicos Crick y Watson sobre la secuenciación molecular del ADN iban a servir para idear una herramienta para combatir estos incómodos correos, que están costando caro a numerosas empresas.
Biólogos computacionales del Centro de Investigación TJ Watson de IBM aseguran haber desarrollado un filtro anti-spam siguiendo el camino que los citados investigadores utilizaron para analizar las secuencias genéticas.
La nueva herramienta, explican, aprende automáticamente pautas propias del vocabulario del spam. Y su eficacia ha demostrado ser de un 96,5%. En pruebas recientes hechas por los científicos del gigante informático, el filtro sólo falló en la identificación de un mensaje de entre un total de 6.000 correos basura, según ha publicado la BBC en su web.
Al parecer, los bioinformáticos de IBM Isidore Rigoutsos y Tien Huynh comenzaron a idear el algoritmo en el que se basa el nuevo filtro hace algo más de un año, y le han bautizado con el nombre de Chung-Kwei. Según cuenta la BBC, los investigadores crearon su algoritmo partiendo de otro que se aplicaba a la investigación sobre las proteínas. Pero en lugar de identificar elementos propios de éstas, los científicos de IBM sustituyeron estos elementos por secuencias de caracteres que aparecen únicamente en mensajes de spam. 'Obviamente, los algoritmos son aplicables a un vasto rango de problemas', explica Rigoutsos.
El nuevo sistema funciona considerando los correos como un conjunto de palabras y combinaciones de letras y símbolos. Mediante el análisis de dos colecciones de e-mails, una de spam y otra de correo bueno, crea diccionarios con las combinaciones más frecuentes en cada uno. Así, es capaz de analizar y comparar cada mensaje con estos diccionarios, estableciendo un umbral a partir del cual los que lo superen son considerados spam y marcados como tal.
Según reconoce el científico de IBM, su trabajo se ayudó de los grandes volúmenes de spam que él y sus colegas reciben en sus puestos de trabajo. 'Hemos experimentado con grandes colecciones de e-mails. Tenemos 66.000 mensajes que son spam y 22.000 que no lo son', añade Rigoutsos, quien explica que 'entrenar 88.000 mensajes lleva aproximadamente 15 minutos en un procesador simple. Si una hora más tarde tenemos más spam, podemos añadirlo a la colección para seguir aprendiendo cada vez más'.
El nuevo sistema aún tiene que pasar algunas pruebas piloto antes de que vigile las bandejas de entrada de los correos de los usuarios. Esta semana se ha sabido también que Estados Unidos sigue generando casi el 45% del e-mail basura que circula por la red, seguido por Corea del Sur y China. Sólo el 1% sale de España, que ocupa la novena posición, según el estudio de la firma de antivirus Sophos.