DUVI. Diario da Universidade de Vigo
Xoves, 15 de setembro do 2016

Jorge Fernández desenvolveu na súa tese unha mellora das plataformas de filtrado existentes

Os buscadores web teñen en WSF2 un novo aliado contra as páxinas lixo

O modelo foi elaborado no Grupo de Investigación Sing da Escola Superior de Enxeñaría Informática


ImagePara acceder a Internet os usuarios e usuarias empregan maioritariamente os motores de busca, sitios web como Google especializados en localizar e listar un conxunto de páxinas que se axustan ás palabras clave indicadas. Durante os últimos anos, estes buscadores víronse seriamente ameazados por páxinas con contido lixo que intentan coarse dentro dos primeiros resultados proporcionados en cada consulta. Na súa tese de doutoramento, o enxeñeiro informático Jorge Fernández desenvolveu WSF2, unha plataforma “potente e flexible” de filtrado das chamadas web spam que "mellora os sistemas existentes".

Rosa Tedín | Ourense
Para acceder a Internet os usuarios e usuarias empregan maioritariamente os motores de busca, sitios web como Google especializados en localizar e listar un conxunto de páxinas que se axustan ás palabras clave indicadas. Durante os últimos anos, estes buscadores víronse seriamente ameazados por páxinas con contido lixo que intentan coarse dentro dos primeiros resultados proporcionados en cada consulta. Na súa tese de doutoramento, o enxeñeiro informático Jorge Fernández desenvolveu WSF2, unha plataforma “potente e flexible” de filtrado das chamadas web spam que "mellora os sistemas existentes".

O maior desafío actual

A tese, titulada Intelligent System for Web Spam Detection, estivo dirixida por Reyes Pavón e Rosalía Laza, e foi elaborada no Grupo de Investigación Sing da Escola Superior de Enxeñaría Informática do campus de Ourense durante catro anos. “O grupo ten levado a cabo nos últimos anos importantes traballos sobre spam no correo electrónico. Motivados polos resultados neste campo decidiuse trasladar os avances obtidos ao ámbito da web”, explica o investigador. Con este obxectivo na súa tese centrouse no chamado web spam, o intento artificial de manipulación dunha páxina web co fin de enganar aos motores de busca e así conseguir posicionarse no máis alto da lista de resultados que se proporcionan ao usuario.

Os investigadores, subliña o xa doutor pola Universidade de Vigo, “cualifican o problema do web spam como o maior desafío actual nas buscas web, xa que os motores ven seriamente afectadas as súas operacións por culpa deste tipo de páxinas”. Estudos feitos recentemente, sinala Fernández González, indican que a cantidade de lixo na web está “aumentando drasticamente”, detectando Google arredor de 9500 novas webs spam cada día, que afectan de 12 a 14 millóns de consultas diarias. Para estas páxinas maliciosas, explícase na tese, “non é suficiente con encontrarse indexado polos motores de busca, senón que a web debe aparecer situada o máis arriba posible xa que o 75% dos usuarios non pasa da primeira páxina de resultados e dentro da primeira páxina, a posición ocupada é moi importante”. Trátase en definitiva, apunta o enxeñeiro, dunha “lacra” que supón moitos inconvenientes tanto para os usuarios finais, que non atopan o que precisan, como para as compañías, que perden credibilidade e consumen recursos.

Aprendizaxe dinámica

Tendo en conta esta problemática, na súa tese de doutoramento, Jorge Fernández desenvolveu un modelo híbrido de intelixencia artificial destinado a solventar o problema da detección e filtrado de dominios web que ofrecen contido ilícito. Concretamente, o modelo proposto, denominado WSF2, implementa un sistema baseado en regras, que vai a ser o encargado de xestionar e executar os distintos algoritmos de clasificación incorporados ao sistema. Segundo explica o investigador, este conxunto de regras constitúen a base de coñecemento, que será utilizada polo modelo deseñado á hora de determinar a lexitimidade dun dominio web. Adicionalmente, co fin de manexar correctamente a natureza evolutiva do spam, o modelo incorpora un módulo de aprendizaxe capaz de axustar automaticamente os parámetros de configuración, permitindo así manter o rendemento de filtrado ao longo do tempo. Para levar a cabo este cometido, engade, o modelo proposto foi deseñado utilizando una metodoloxía IBR, de razoamento baseado en instancias.

“O motor de regras reutilizará estes resultados xunto con diferentes parámetros definidos polo usuario para levar a cabo a toma de decisións. Ademais, coa finalidade de dotar ao modelo desenvolvido dunha gran capacidade de adaptación ao efecto provocado polo paso do tempo, sobre o motor de regras descrito implántase un sistema IBR, onde o conxunto de regras constitúe a base de coñecemento sobre a cal se vai a aplicar os mecanismos necesarios para conseguir unha aprendizaxe dinámica”, explica o investigador. O sistema desenvolvido na tese iría integrado no buscador, detectando as páxinas con contido malicioso e evitando o seu procesamento por parte do buscador. Unha vez configurado o filtro por parte do usuario, aclara Jorge Fernández, o sistema compórtase de forma autónoma e non require supervisión humana en ningunha das súas fases.

Mellora cualitativa e cuantitativamente

Segundo explica o investigador ourensán, as probas realizadas con este modelo “demostraron a superioridade do sistema proposto sobre os distintos modelos analizados dentro do marco do problema estudado, tanto a nivel de precisión como de rapidez á hora de levar a cabo a tarefa de clasificación". O sistema IBR desenvolvido, engade, “mellora cualitativa e cuantitativamente a todos os modelos contra os que se comparou”, sendo capaz de producir "clasificacións máis acertadas e con maior precisión e rapidez". Ademais, engade, o traballo realizado durante a tese estableceu “as bases para a creación de técnicas para o filtrado do spam na web, tendo en consideración conceptos tan importantes neste ámbito como o desbalanceo de clase, xunto co desenvolvemento dun modelo capaz de sacar partido ás achegas da investigación realizada”.
< Ant.   Seg. >

Duvi. Diario da Universidade de Vigo. | Contacta con nós