Analisador brasileiro de busca

De IBICT
Ir para: navegação, pesquisa

A busca é uma opção importante na recuperação de itens no repositório. Essa facilidade é padrão no DSpace, porém pode ser ajustada para adequar a busca no idioma padrão do repositório. A adequação da busca ao idioma é efetuada na forma de indexação dos documentos. Essa indexação pode ser feita de formas diferenciadas, dependendo das opções selecionadas.

O analisador em língua portuguesa do Brasil apresenta as particularidades da língua em relação à indexação. A forma de indexação, por exemplo, deve levar em conta as características de gênero e número, inexistentes em alguns idiomas. Assim, buscar por palavras no singular deve recuperar documentos que contenham essa palavra também no plural, o mesmo acontecendo com o feminino e o masculino.

A indexação, no entanto, não resolve problemas fonológicos ou de flexão verbal. Portanto, não se recupera palavras com grafias diferentes, mas com mesmo som, através de um único argumento. Por exemplo, “Souza” e “Sousa” são palavras distintas e, por isso, recuperáveis mediante argumentos de busca distintos.

Esta é uma facilidade do Lucene (o mecanismo de busca textual utilizado pelo DSpace) e, assim, não é exclusividade do DSpace, mas uma facilidade incorporada por ele. É implementada por um programa construído com a linguagem de programação Java chamado de BrazilianAnalyzer do projeto Lucene. Por ser de código aberto, pode ser alterado para conter as adequações necessárias.