Indexação de texto completo

De IBICT
Edição feita às 10h16min de 19 de setembro de 2013 por Washington (disc | contribs)

(dif) ← Edição anterior | ver versão atual (dif) | Versão posterior → (dif)
Ir para: navegação, pesquisa

A indexação de texto completo consiste na criação de índices textuais em que todas as palavras se tornam pontos de recuperação para o documento. Essa indexação permite que se recupere um documento não apenas pela sua descrição, mas pelas palavras existentes no texto do documento depositado, aumentando significativamente a quantidade de documentos recuperados em um processo de busca.

Ao utilizar a indexação de texto completo, nem todas as palavras são indexadas. Existe uma lista de palavras que não devem ser indexadas por não conter um significado relevante (Stop Words). Pronomes, artigos e conjunções, por exemplo, não precisam ser indexados de forma geral, mas essa lista pode ser aumentada se for necessário.

A utilização da indexação de texto completo é uma questão opcional, que depende principalmente dos formatos dos documentos depositados. Repositórios imagéticos, por exemplo, não possuem necessidade de utilizar essa facilidade. Na configuração padrão essa facilidade está desativada. Portanto, para ativar, basta modificar o valor do parâmetro.

Ao ativar esse parâmetro é necessário que se atualize o índice textual periodicamente. A frequência depende da quantidade de submissões. caso isso não seja feito, o índice textual pode não recuperar todos os documentos em um processo de busca, pois a indexação não é automática, mas precisa de um processo de leitura de todos os documentos depositados.

Repositórios onde grande parte dos documentos depositados são textuais podem utilizar essa facilidade para aumentar o números de itens recuperados no processo de busca, melhorando assim a recuperação, pois em alguns casos os metadados não descrevem o documento com exatidão. Dessa forma, somente com a indexação de texto completo pode-se recuperar melhor esse documento.