Artigos científicos, teses e dissertações
Publicados nas melhores instituições de ensino

Uma abordagem baseada na web para resolução de entidades e criação de aquivos de autoridade

Repositórios de dados na Web normalmente contêm referências para milhares de entidades do mundo real, originadas de múltiplas fontes. Não é incomum que múltiplas entidades compartilhem um mesmo rótulo (homônimos) e que variações distintas de rótulos sejam associadas a uma mesma entidade (sinônimos), o que frequentemente conduz a interpretações ambíguas. E ainda, variações e erros de grafias, siglas e formas abreviadas contribuem para tornar o problema ainda mais difícil. Resolver este problema requer identificar quais rótulos correspondem a uma mesma entidade do mundo real, um processo conhecido com resolução de entidades. Uma abordagem para resolver o problema é selecionar um identificador de autoridade para cada entidade, bem como uma lista das suas formas variantes --- uma estrutura de dados conhecida como arquivo de autoridade. Neste trabalho, nós propomos um novo método de gerar arquivos de autoridade baseado em informações disponíveis na Web. O método consiste em coletar informações sobre as referências a entidades, submetê-las como consultas a uma máquina de busca, analisar o conjunto resultado e extrair informações para desambiguar as referências a entidades. Experimentos sobre três bases de dados distintas sugerem que nosso método supera métodos de referência, alcançando ganhos de até 125% na métrica pairwise F1.

COMO SALVAR SEU TCC