DUVI. Diario da Universidade de Vigo
Mércores, 01 de marzo do 2017

O proxecto, financiado polo Mineco, arrancou hai un ano e conta cun orzamento de 70.000 euros

Técnicas algorítmicas de busca multimedia e multilingüe para localizar persoas en contidos audiovisuais

O Grupo de Tecnoloxías Multimedia traballa en procesamento de fala e de imaxe


ImageO Grupo de Tecnoloxías Multimedia traballa dende hai un ano no proxecto TraceThem, unha investigación en técnicas algorítmicas de busca multimedia e multilingüe para localizar persoas en contidos audiovisuais. Trátase dun proxecto financiado polo Programa Estatal de Fomento da I+D+i de Excelencia cun orzamento de 70.000 euros e no que están involucrados os membros do GTM Carmen García Mateo, José Luis Alba Castro, Antonio Cardenal, Eduardo Rodríguez Banga, Laura Docío, Carmen Magariños e Paula López, grupo que forma parte do centro AtlantTIC. O proxecto, de tres anos de duración, arrancou en xaneiro de 2016 e ten como obxectivo desenvolver e mellorar técnicas para a busca de información sobre persoas que aparecen en gravacións audiovisuais, polo que as tecnoloxías básicas que empregan os investigadores son o procesamento de fala e de imaxe, como explica García Mateo, directora do GTM.

M. Del Río | Vigo
O Grupo de Tecnoloxías Multimedia traballa dende hai un ano no proxecto TraceThem, unha investigación en técnicas algorítmicas de busca multimedia e multilingüe para localizar persoas en contidos audiovisuais. Trátase dun proxecto financiado polo Programa Estatal de Fomento da I+D+i de Excelencia cun orzamento de 70.000 euros e no que están involucrados os membros do GTM Carmen García Mateo, José Luis Alba Castro, Antonio Cardenal, Eduardo Rodríguez Banga, Laura Docío, Carmen Magariños e Paula López, grupo que forma parte do centro AtlantTIC. O proxecto, de tres anos de duración, arrancou en xaneiro de 2016 e ten como obxectivo desenvolver e mellorar técnicas para a busca de información sobre persoas que aparecen en gravacións audiovisuais, polo que as tecnoloxías básicas que empregan os investigadores son o procesamento de fala e de imaxe, como explica García Mateo, directora do GTM. A necesidade de avanzar neste eido responde á multiplicación de contidos audiovisuais e novos escenarios como MOOCs, vídeo blogs, titoriais, etc. que se unen aos contidos tradicionais como televisión, noticias ou películas. Ante esta cantidade de información, a automatización do proceso de busca para filtrar, acceder e seleccionar os contidos convértese nun aspecto clave. Así, TraceThem ten como finalidade, destaca o profesor José Luis Alba, “desenvolver unha tecnoloxía que evite o indexado manual dos contidos e permita buscar directamente o que interesa a través do procesado de vídeo e audio”. Estes avances son de especial utilidade para o indexado de contidos multimedia para grandes repositorios, por exemplo de medios de comunicación e institucións educativas. O obxectivo final é ter un motor de indexación que permita localizar contidos ou persoas neses vídeos e audios e “o teito deste tipo de investigación sería conseguir que motores de busca de internet como Google atopasen non só texto, senón audio e vídeo sen necesidade de que eses contidos fosen indexados manualmente, como se fai agora”.

Na procura de persoas e voces

A catedrática Carmen García Mateo explica que a información que se pretende extraer con estas tecnoloxías “está sempre dentro dun contexto comunicativo, é dicir, son contidos de alguén e para alguén, polo que a caracterización das persoas involucradas neste contexto xoga un papel central”. Céntranse deste xeito en atopar información sobre as persoas e a súa forma de interactuar: quen son, que din, como se comunican, que están facendo… é dicir, que o interese está en descubrir persoas e contido. A extracción de información relacionada coas persoas lévase a cabo a través de procesamento de audio, procesamento de vídeo e procesamento combinado de audio e vídeo. Para isto, os investigadores traballan na análise de contido multimedia, biometría de voz e cara, segmentación de audio e diarización de falantes, detección do estado emocional e detección de persoas que interactúan.

As competicións como ferramenta de I+D

A finalidade deste proxecto non é desenvolver aplicacións comercializables, senón mellorar a tecnoloxía, e un dos instrumentos para testar e validar os avances son as competicións internacionais nas que participan diferentes grupos de universidades e centros tecnolóxicos. Estes concursos establecen marcos experimentais comúns para mellorar a tecnoloxía pero tamén para potenciar a colaboración con outros grupos, axudando a descubrir as fortalezas e debilidades dos algoritmos e sistemas desenvolvidos. No 2016, as enxeñeiras viguesas participaron en dúas competicións: Mediaeval (Holanda) e Albayzin Evaluation (Portugal). No primeiro, como explican Laura Docío e Paula López, traballamos cun “conxunto grande de vídeos no que tivemos que descubrir a identidade da persoa que aparece nun extracto duns segundos de duración empregando unicamente información obtida do texto, voz e vídeo”, mentres que Albayzin 2016 céntrase na busca en voz. Os resultados respaldan o traballo do grupo, xa que en Mediaeval acadaron un 4º posto e en Albayzin obtiveron o 1º posto na busca de palabras en gravacións de voz e o 3º en diarización, é dicir, na identificación das quendas dos distintos locutores dun audio.

O reto: sistemas robustos que funcionen en condicións adversas

Os investigadores do GTM levan traballando neste eido durante anos e este non é o primeiro proxecto que desenvolven neste campo. Explican que algunhas innovacións xa se comercializan e funcionan razoablemente ben en contornas controladas, pero “cando as condicións non son as óptimas, por exemplo polo ruído, a presenza de distintos idiomas, as referencias cruzadas, etc. non traballan tan ben. Polo tanto, o reto é facer estes sistemas robustos a condicións acústicas adversas”. Ademais, o procesamento destes documentos multimedia implica a dificultade engadida de que os contidos poden aparecer en diferentes idiomas, o que representa un maior desafío tecnolóxico, xa que se necesitan ferramentas adaptadas a diferentes linguas.

Outras liñas de investigación dentro do proxecto

Dentro do proxecto TraceThem, os investigadores desenvolven tamén outras dúas liñas de traballo paralelas. Unha delas é a de-identificación de locutor, que permite transformar unha voz de xeito que non se saiba cal é o emisor de procedencia e que ten especial relevancia para manter a privacidade nas bases de datos de voz. “Non se trata de distorsionar”, explican, “queremos que soe igual de natural ca o orixinal, pero con outra voz”. Outra liña de traballo é a adaptación de locutor cross-lingual, que se centra en desenvolver técnicas que permitan levar a identidade dunha voz a outra, entre un par de linguas distintas, é dicir, trátase de producir voz dun mesmo locutor pero noutro idioma, algo que tería unha posible aplicación para os tradutores automáticos, para que a voz do emisor soe noutro idioma igual que no orixinal.
< Ant.   Seg. >

Duvi. Diario da Universidade de Vigo. | Contacta con nós