Projeto financiado pelo Google busca gerar palavras-chave mais descritivas e com relação mais estreita com os conteúdos
Por Redação
Todos os dias somos bombardeados pela grande quantidade de informações disponíveis na internet. E é cada vez mais importante a classificação e a organização desses dados online. O uso de tags (etiquetas, na tradução literal) consiste na adoção de palavras-chave para relacionar informações semelhantes ou que remetem a conteúdos comuns.
Com a criação do projeto “Além da relevância: abordando novidade, diversidade e personalização na recomendação de tags [extensão]”, um grupo de pesquisadores do Departamento de Ciência da Computação (DCC) da Universidade Federal de Minas Gerais (UFMG) está desenvolvendo novos métodos de recomendação de tags. O objetivo é criar uma ferramenta que proponha palavras-chave mais estritamente relacionadas aos conteúdos disponíveis na web.
Segundo o doutorando em Ciência de Computação, Fabiano Muniz Belém, as tags são uma boa fonte de informação porque servem para organizar os conteúdos disponíveis na internet. “Percebemos, em pesquisas anteriores, que elas estão ausentes em uma grande parcela de páginas da web. A ferramenta que estamos criando pode facilitar o uso de tags e possibilitar seu emprego em mais sites”, explica.
Fabiano Belém explica que, na internet, há muitas tags que apresentam ruídos e que eles surgem quando as palavras-chave são formadas por termos não relacionados ao conteúdo buscado pelo usuário. E para evitar esse tipo de problema, o projeto busca recomendar tags “que ajudem os usuários a gerar palavras-chave mais descritivas e com relação mais estreita com seus conteúdos”.
Os algoritmos computacionais consideram, de forma automática, quatro fatores ao sugerir as tags que serão criadas: relevância, novidade, diversidade e personalização. Segundo Belém, a relevância leva em consideração o quão as palavras-chave estão relacionadas ao conteúdo buscado pelo internauta. A novidade refere-se à especificidade da palavra-chave, ou seja, à capacidade de o sistema recomendar tags que o usuário dificilmente relacionaria com o conteúdo pesquisado.
A diversidade, por sua vez, é a competência de cobrir os diversos assuntos e tópicos relacionados ao tempo procurado. Por fim, a personalização refere-se à proximidade do termo com os interesses e o perfil do internauta. “O algoritmo que desenvolvemos explora conjuntamente esses quatro pontos e possibilita a geração de tags mais personalizadas, adequadas ao perfil do usuário e que sumarizam o conteúdo de forma mais precisa e completa”, resume Belém.
Mecanismo poderá ser utilizado em buscadores, como o Google
Para o desenvolvimento dos algoritmos e realização dos testes, o grupo utilizou as tags de sites como o YouTube e o LastFM, serviço de streaming de músicas.
Segundo Belém, a recomendação das tags no sistema desenvolvido pelos pesquisadores é feita em duas etapas. Na primeira, extraem-se palavras que podem aparecer, ao mesmo tempo, no título e na descrição do conteúdo do vídeo no YouTube, por exemplo; na segunda, as palavras são classificadas, considerando a relevância, a novidade, a diversidade e a personalização.
Além disso, o grupo também criou atributos que medem a qualidade das tags. “Um deles observa como a tag está espalhada em vários campos textuais da página da internet. Se aparece no título do vídeo e na descrição, isso indica que a tag é mais relevante que uma que figura apenas nos comentários dos usuários”, diz.
O pesquisador acrescenta que o sistema, além de ajudar os usuários a criar as tags, também melhora a busca de conteúdos on-line, uma vez que poderá ser usado por mecanismos de buscas da internet, como o Google. “A nossa pesquisa pode ser aplicada em qualquer site, facilitando a organização da informação disponível”, conclui Fabiano Belém.
Projeto é financiado pelo Google
Iniciado no ano passado, o projeto conta com financiamento e apoio do Google por meio do Programa de Bolsas de Pesquisa Google para a América Latina. Além das bolsas de estudos mensais concedidas aos integrantes da equipe, há reuniões de orientação de funcionários da empresa de tecnologia.
Além de Fabiano Muniz Belém, participam do projeto os professores do DCC Jussara Marques de Almeida e Marcos André Gonçalves.
Fonte: UFMG