Processos de construção automática de tesauro

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

29/03/2011

RESUMO

Com o progresso da tecnologia, a quantidade de informação disponível em formato digital tem aumentado rapidamente. Esse aumento se reflete na crescente importância de sistemas de Recuperação de Informações (RI) eficientes, obtendo as informações corretas quando requisitadas pelos usuários. Tesauros podem ser associados a sistemas de RI, permitindo que o sistema realize consultas não apenas pelo termo-chave, mas também por termos relacionados, obtendo documentos relacionados, que antes não eram recuperados. A criação manual, processo longo e oneroso que dava origem aos primeiros tesauros, passa a ser realizada automaticamente, através de diferentes métodos e processos disponíveis atualmente. Com esta motivação, este trabalho propõe estudar três processos de construção automática de tesauros. Um método utiliza técnicas estatísticas para a identificação dos melhores termos relacionados. Outro método utiliza conhecimento sintático, sendo necessário extrair, além das categorias gramaticais de cada termo, as relações que um verbo tem com seu sujeito ou objeto. O último método faz a utilização de conhecimento sintático e de conhecimento semântico dos termos, identificando relações que não são aparentes. Para isso, esse último método utiliza uma adaptação da técnica de Análise Semântica Latente. Foram desenvolvidos estes três métodos de geração tesauros a partir de documentos do domínio de privacidade de dados. Os resultados foram aplicados a um sistema de RI, permitindo a avaliação por especialistas do domínio. Como conclusão, observamos que, em determinados casos, é melhor a aplicação de técnicas que não utilizem conhecimento semântico dos termos, obtendo melhores resultados com métodos que utilizam apenas o conhecimento sintático dos mesmos.

ASSUNTO(S)

informÁtica tesauros - elaboraÇÃo indexaÇÃo de assuntos ciencia da computacao

Documentos Relacionados