Mudanças entre as edições de "Repox"
(→Agendando coletas) |
|||
(113 edições intermediárias de 2 usuários não apresentadas) | |||
Linha 24: | Linha 24: | ||
− | O processo de interoperabilidade, relacionado ao movimento de arquivos abertos, atende a existência de três elementos, os provedores de dados, os provedores de | + | O processo de interoperabilidade, relacionado ao movimento de arquivos abertos, atende a existência de três elementos, os provedores de dados, os provedores de serviços e os agregadores. Como o foco está no intercambio de informação entre sistemas informatizados, de forma automática, os provedores de dados são os sistemas que ofertam os dados para que sejam coletados para os provedores de serviços, de forma a poderem ofertar serviços consolidados. Os agregadores são sistemas que coletam as informações como os provedores de serviços e, também, ofertam os dados coletados como os provedores de dados (figura 1). |
Linha 85: | Linha 85: | ||
− | A página inicial do REPOX, acessível logo após o login, pode ser dividida em quatro partes, simplesmente para entendimento, como apresentado na figura | + | A página inicial do REPOX, acessível logo após o login, pode ser dividida em quatro partes, simplesmente para entendimento, como apresentado na figura 5, Esta página pode apresentar mais ou menos opções dependendo do usuário. Neste caso, apresentamos a página apresentada para o administrador, que é o usuário com o maior privilégio no REPOX |
'''Figura 5 – Detalhe da página inicial do REPOX'''[[Arquivo:Figura 5 – Detalhe da página inicial do REPOX.jpg|200|center|Figura 5 – Detalhe da página inicial do REPOX]] | '''Figura 5 – Detalhe da página inicial do REPOX'''[[Arquivo:Figura 5 – Detalhe da página inicial do REPOX.jpg|200|center|Figura 5 – Detalhe da página inicial do REPOX]] | ||
+ | |||
+ | Item Descrição | ||
+ | |||
+ | 1 - Indica qual a versão do REPOX, | ||
+ | |||
+ | 2 - Menu principal do REPOX, | ||
+ | |||
+ | 3 - Indica qual o usuário está logado | ||
+ | |||
+ | 4 - Área de trabalho do REPOX apresentado os provedores de dados e datasets, assim como as opções para gerencia-los. | ||
+ | |||
+ | ===A administração=== | ||
+ | |||
+ | |||
+ | |||
+ | A administração do REPOX compreende um grupo de cinco opções: Configuração, Gerenciamento de Usuários, Gerenciamento de Serviços Externos, Serviços REST e Gerenciamento de Tags (Figura 6). Cada opção possibilita a gerenciar ou configuração de parte do sistema. Por ser parte sensível, deve-se ter cautela em fazer alterações. | ||
+ | |||
+ | |||
+ | '''Figura 6 – Detalhe da página do REPOX, indicando a administração''' | ||
+ | |||
+ | |||
+ | |||
+ | [[Arquivo:Figura 6 – Detalhe da página do REPOX, indicando a administração.jpg|200|center|Figura 6 – Detalhe da página do REPOX, indicando a administração]] | ||
+ | |||
+ | |||
+ | |||
+ | ====Configuração==== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | O formulário de configuração permite a configuração dos parâmetros do sistema de forma online. Estes parâmetros devem ser configurados na instalação ou em caso de mudanças na infraestrutura que abriga o REPOX. Para tanto, deve-se ter muito cuidado na configuração ou alteração dos parâmetros, para evitar problemas posteriores. | ||
+ | |||
+ | '''Figura 7 – Detalhe da página do Repox com as opções da configuração''' | ||
+ | |||
+ | |||
+ | |||
+ | [[Arquivo:Figura 7 – Detalhe da página do Repox com as opções da configuração.jpg|200|center|Figura 7 – Detalhe da página do Repox com as opções da configuração]] | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | Os principais parâmetros a serem configurados são os apresentados no quadro 2. Para alterar algum valor, basta sobrescrever os valores e clicar em “save”. Caso não queira guardar as modificações clique em “cancel”. Sugere-se que sempre copie os valores existentes antes de fazer alguma alteração, de forma a poder retornar ao valor original em caso de falhas ou problemas. | ||
+ | |||
+ | ''' Quadro 2 – Parâmetros de configuração do REPOX''' | ||
+ | |||
+ | |||
+ | |||
+ | [[Arquivo:Quadro 2 – Parâmetros de configuração do REPOX.jpg|200|center|Quadro 2 – Parâmetros de configuração do REPOX]] | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====Gerenciando usuários==== | ||
+ | |||
+ | |||
+ | Como todo sistema, o REPOX possui gerenciamento de usuários, com a possibilidade de adicionar, alterar e remover usuários (figura 8). | ||
+ | |||
+ | |||
+ | ''' Figura 8 - Detalhe da página de gerenciamento de usuário''' | ||
+ | |||
+ | |||
+ | |||
+ | [[Arquivo:Figura 8 - Detalhe da página de gerenciamento de usuário.jpg|200|center|Figura 8 - Detalhe da página de gerenciamento de usuário]] | ||
+ | |||
+ | |||
+ | Para adicionar um usuário novo clique em “Add User ”(Figura 8). O sistema abre uma tela pop-up para entrar com as seguintes do novo usuário, depois basta clicar em “save” para terminar o processo: | ||
+ | |||
+ | |||
+ | • Identificação do usuário, que pode ser o nome. | ||
+ | |||
+ | |||
+ | • Email do usuário, para possibilitar recuperar senha via email | ||
+ | |||
+ | |||
+ | • Papel: | ||
+ | |||
+ | o Admin : administrador do REPOX, com permissões para executar todos os processos de manutenção do sistema. | ||
+ | |||
+ | o Normal: usuário com todas as permissões, exceto a de criar novos usuários, que é exclusivo do Admin. | ||
+ | |||
+ | o Harvest: usuário que somente pode ver as informações, sem, no entanto, poder fazer alguma alteração. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ''' Figura 9 – Detalhe da página pop-up para criar usuário novo''' | ||
+ | |||
+ | |||
+ | |||
+ | [[Arquivo:Figura 9 – Detalhe da página pop-up para criar usuário novo.jpg|200|center|Figura 9 – Detalhe da página pop-up para criar usuário novo]] | ||
+ | |||
+ | |||
+ | ====Gerenciamento de serviços externos==== | ||
+ | |||
+ | Os serviços externos são processos hospedados em outros servidores, que devem ser executados antes ou depois de uma coleta (figura 10). Os serviços externos devem estar de acordo com a arquitetura REST (REpresentational State Transfer), que possibilita a transferência de dados por meio de uma rede de computadores. Essa facilidade pode ser utilizada para processar dados coletados ou preparar o ambiente para a coleta. | ||
+ | |||
+ | |||
+ | ''' Figura 10 – página para adicionar serviços externos''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 10 – página para adicionar serviços externos.jpg|200|center|Figura 10 – página para adicionar serviços externos]] | ||
+ | |||
+ | ===Gerenciando Provedores de dados=== | ||
+ | |||
+ | Os provedores de dados é a entidade que provê os dados no processo de coleta, por meio de seus datasets. Esta separação possibilita que se possa coletar coleções específicas de um mesmo provedor de dados, caso cada coleção seja definido, pelo provedor de dados, como um dataset (set). Dessa forma, um provedor de dados para o REPOX é um rótulo que identifica os datasets a serem coletados. As opções de gerenciamento de provedores de dados são: visualizar (apresentado na página inicial do REPOX), adicionar, alterar e remover, apresentados a seguir. | ||
+ | |||
+ | |||
+ | =====Adicionando Provedor de dados===== | ||
+ | |||
+ | |||
+ | Para adicionar um provedor de dados, clique em “criar Data Provider” na página inicial do REPOX. Essa opção está disponível para o Administrador, mas não é visível para outros usuários. Ao clicar em “criar Data Provider” uma página Pop-Up aparece para entrar com as informações do novo provedor de dados (figura 11). Precisa-se apenas do país ( a ser selecionado de uma lista normalizada), o nome do provedor e uma breve descrição. O país serve para colocar uma bandeira do país na visualização dos provedores de dados. | ||
+ | |||
+ | |||
+ | ''' Figura 11 – Detalhe da página pop-Up para criação de provedor de dados''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 11 – Detalhe da página pop-Up para criação de provedor de dados.jpg|200|center|Figura 11 – Detalhe da página pop-Up para criação de provedor de dados]] | ||
+ | |||
+ | =====Alterar Provedor de dados===== | ||
+ | |||
+ | Para alterar um provedor de dados, entre na página inicial em que são apresentados todos os provedores de dados, selecione o provedor de dados que se deseja alterar e clique com o botão direito do mouse (figura 12). A opção para alterar o provedor de dados abre uma tela Pop-Up com as informações existentes, permitindo trocá-las. | ||
+ | |||
+ | ''' Figura 12 – detalhe da página inicial, com provedor de dados selecionado, apresentado a opção de alteração''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 12 – detalhe da página inicial, com provedor de dados selecionado, apresentado a opção de alteração.jpg|200|center|Figura 12 – detalhe da página inicial, com provedor de dados selecionado, apresentado a opção de alteração]] | ||
+ | |||
+ | |||
+ | =====Remover Provedor de dados===== | ||
+ | |||
+ | |||
+ | Para remover um provedor de dados, entre na página inicial em que são apresentados todos os provedores de dados, selecione o provedor de dados que se deseja alterar e clique com o botão direito do mouse (figura 12). A opção de remover o provedor de dados requer uma confirmação, uma página Pop-Up será apresentada para confirmar a remoção (figura 13). Caso confirme o Provedor de dados será removido, caso não confirme permanece-se o Provedor de dados ativo. | ||
+ | |||
+ | |||
+ | |||
+ | ''' Figura 13 – Página Pop-Up de confirmação de remoção de Provedor de Dados''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 13 – Página Pop-Up de confirmação de remoção de Provedor de Dados.jpg|200|center|Figura 13 – Página Pop-Up de confirmação de remoção de Provedor de Dados]] | ||
+ | |||
+ | |||
+ | ===Gerenciando DataSets=== | ||
+ | |||
+ | Um DataSet é a estrutura virtual que agrega os metadados coletados. Assim, para cada Provedor de dados deve-se criar um ou mais DataSets, dependendo da forma que a coleta (harvesting) é esquematizada. Em alguns casos, faz-se a coleta de todos os metadados, requerendo apenas um DataSet. Em outros casos, coletam-se Sets, partes do acervo. Assim, para cada Set que se deseja coletar é preciso criar um DataSet. | ||
+ | |||
+ | |||
+ | =====Adicionar DataSet===== | ||
+ | |||
+ | Por pertencer a um Provedor de Dados, a adição de um DataSet inclui-se nas facilidades relacionadas ao Provedor de Dados. Clica-se com o botão direito no mouse no Provedor de dados que se apresenta a opção para criar DataSet (figura 13). Pode-se, também, marcar o provedor de dados e clicar na opção de menu Criar DataSet. | ||
+ | |||
+ | ''' Figura 14 – Opção para adicionar DataSet''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 14 – Opção para adicionar DataSet.jpg|200|center|Figura 14 – Opção para adicionar DataSet]] | ||
+ | |||
+ | |||
+ | Ao clicar em Criar DataSet, uma página PopUp se apresentará para o cadastramento do novo DataSet, de forma a inserir os dados (figura 14). Nesta página informa-se os dados do novo DataSet, iniciando por escolher a aba apropriada, OAI-PMH para provedores de dados Open Archieves, Folder para coleta em pastas, Z39.50 e SruUpdate para coletas em Catálogos que utilizam esses protocolos. | ||
+ | |||
+ | ''' Figura 15 – Página de cadastramento do DataSet''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 15 – Página de cadastramento do DataSet.jpg|200|center|Figura 15 – Página de cadastramento do DataSet]] | ||
+ | |||
+ | |||
+ | Para os provedores de dados usuários do protocolo OAI-PMH os dados a serem inseridos são: | ||
+ | |||
+ | |||
+ | '''OAI URL:''' a URL do servidor a qual os metadados serão coletados. É altamente recomendável que clique em Verificar, para assegurar que a informação inserida está correta. Da mesma forma que ao verificar a URL facilitará a seleção dos Sets se for o caso. | ||
+ | |||
+ | |||
+ | '''OAI Set:''' nome do conjunto de dados no servidor OAI. Um conjunto é uma construção opcional para agrupamento de itens com a finalidade de coleta seletiva. Os repositórios podem organizar itens em conjunto. Se este campo não for fornecido, o Repox irá trazer todos os registros. | ||
+ | |||
+ | |||
+ | '''Formato de Metadados:''' Como a coleta pode ser efetuada utilizando vários formatos de metadados, como Dublin Core ou Mets, ao verificar a URL, esse campo se carrega com os esquemas de metadados a qual o provedor de dados responde. | ||
+ | |||
+ | |||
+ | '''Versão do Schema:''' Alguns esquemas de metadados possuem mais que uma versão. Assim será preciso selecionar a versão. Lista com as versões cadastradas. Aos fazer isso, os dois próximos campos serão preenchidos automaticamente, com a URL do esquema e do NameSpace. | ||
+ | |||
+ | |||
+ | '''Record Set:''' Insira aqui o nome do DataSet, podendo ou não ser o mesmo nome do Set ou do provedor de dados (em caso de coleta completa). | ||
+ | |||
+ | |||
+ | '''Descrição:''' Insira aqui uma pequena descrição do DataSet. | ||
+ | |||
+ | |||
+ | '''Transformação:''' uma transformação esquema pode ser usada para mapear os metadados originais, do esquema inicial para um novo esquema de metadados. As regras de mapeamento devem ser armazenadas em um arquivo XSLT. | ||
+ | |||
+ | |||
+ | ====Obtendo Informação do DataSet===== | ||
+ | |||
+ | |||
+ | Para obter informação sobre um dataset, basta clicar em um dataset com o botão direitos o mouse, como na figura 14, apenas, selecione a opção “View Info”. Com isso uma página PopUp se abrirá apresentado as informações sobre o dataset, como na figura 16. Essa página trás informações gerais sobre o DataSet, apresentado na página inicial, assim como o acesos aos logs das últimas coletas. Opção útil para acompanhamento de coleta dos DataSets. | ||
+ | |||
+ | ''' Figura 16 – Detalhe da página de informação do DataSet''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 16 – Detalhe da página de informação do DataSet.jpg|200|center|Figura 16 – Detalhe da página de informação do DataSet]] | ||
+ | |||
+ | |||
+ | ===Gerenciando a Coleta (Harvesting)=== | ||
+ | |||
+ | O harvesting ou coleta automática de metadados é o processo pelo qual um provedor de serviço se conecta ao um provedor de dados, coletando os metadados total ou de um set específico, para depositar esses metadados nos DataSets. A conxão dá-se por meio de protocolos de comunicação (OAI-PMH, Z39-50 ou outros) como se fosse o acesso a uma página web. A coleta de metadados dá-se por meio de processos request/response. Assim, o provedor de serviço implementa parte do protocolo que coleta metadados e o provedor de dados implementa a parte do protocolo que reponde a coleta. | ||
+ | |||
+ | |||
+ | O REPOX implementa tanto o protocolo que coleta, quanto o que responder a coleta, ou seja, é um agregador. Para tanto, disponibiliza uma URL que responde a coleta e gerencia provedores de dados e datasets para armazenar as coletas. Como os dados coletados ficam armazenados nos datasets, torna-se um processo de transferência de metadados entre os provedores de dados e o REPOX. | ||
+ | |||
+ | |||
+ | Este processo deve ser customizado para tornar-se automático, informando as datas e horários a serem executados e a forma que deve ser feito, mas também podendo ser executado manualmente. Este é o principal processo mantido pelo REPOX e para implementá-lo com a flexibilidade necessária é composto por várias funcionalidades, como o agendamento, mapeamento e outros. | ||
+ | |||
+ | |||
+ | |||
+ | ====Obtendo informações sobre as coletas==== | ||
+ | |||
+ | Como o objetivo principal do REPOX é gerenciar harvesting, a página inicial apresenta várias informações sobre os provedores de dados, DataSets e coletas. Nesta página, um cabeçalho indica várias informações sobre as coletas efetuadas (Figura 17). Como as coletas são efetuadas nos DataSets, as informações sobre a coleta feita é apresentada na linha do DataSet, sendo: | ||
+ | |||
+ | • OAI-PMH Schemes: indica quais os esquemas de metadados a qual a coleta pode ser feita, visto que um DataSet pode responder por mais que um esquema; | ||
+ | |||
+ | |||
+ | • Ingest Type: indica qual o esquema de metadados foi utilizado na última coleta, da mesma forma que indica qual o protocolo utilizado; | ||
+ | |||
+ | |||
+ | • Last Ingest: indica qual a data e horário da última coleta, independente se terminou corretamente ou não; | ||
+ | |||
+ | |||
+ | • Next Ingest: indica a data e horário da próxima coleta, caso tenha alguma coleta agendada; | ||
+ | |||
+ | |||
+ | • Records: indica a quantidade total de registros coletados nesse DataSet; | ||
+ | |||
+ | |||
+ | • Ingest Status: indica qual o resultado da última coleta, se terminou sem problemas o símbolo fica verde. Caso ocorra algum problema, o símbolo de status ficará vermelho. Ao clicar no símbolo, independente da cor, abre-se o log da última coleta. Com isso pode-se verificar os problemas, quando acontecerem. | ||
+ | |||
+ | |||
+ | ''' Figura 17 – Detalhe da página inicial destacando as informações de harvesting''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 17 – Detalhe da página inicial destacando as informações de harvesting.jpg|200|center|Figura 17 – Detalhe da página inicial destacando as informações de harvesting]] | ||
+ | |||
+ | |||
+ | |||
+ | ====Comandando a coleta de metadados manualmente==== | ||
+ | |||
+ | |||
+ | Para iniciar um processo de coleta manualmente, primeiramente, deve-se selecionar o DataSet a qual se deseja que a coleta seja feita. Clique com o botão direito do mouse e selecione a opção Ingest Now. (Figura 18). Este comando faz com que a coleta se inicie imediatamente, conforme as especificações indicadas na criação do DataSet, assim, as configurações corretas do DataSet, devem ter sido efetuadas anteriormente, para que o harvesting ocorra sem problemas. O harvesting manual possibilita que a coleta seja efetuada a qualquer momento, desde que não tenha uma já ocorrendo, que neste caso, deve ser parada ou a coleta fica na fila para ser executada após a coleta atual finalizar. | ||
+ | |||
+ | |||
+ | ''' Figura 18 – Opção para executar a coleta manualmente''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 18 – Opção para executar a coleta manualmente.jpg|200|center|Figura 18 – Opção para executar a coleta manualmente]] | ||
+ | |||
+ | |||
+ | ====Coletando uma amostra de dados (Ingest Sample)==== | ||
+ | |||
+ | |||
+ | Para testar um provedor de dados, pode-se, em muitos casos, fazer uma coleta manual com apenas uma amostra de dados. Assim, para executar essa opção, clique com o botão direito no data set e escolha a opção Ingest Sample (Figura 19). Nesta opção pode-se indicar a quantidade de registros para ser coletada. Com isso, pode-se testar a coleta de metadados em um provedor de dados coletando apenas uma quantidade significativa de metadados, sem a necessidade de completar uma coleta completa. | ||
+ | |||
+ | |||
+ | ''' Figura 19 – Detalhe da página para coletar uma amostra de dados''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 19 – Detalhe da página para coletar uma amostra de dados.jpg|200|center|Figura 19 – Detalhe da página para coletar uma amostra de dados]] | ||
+ | |||
+ | |||
+ | ====Colocando o Refresh automático na página inicial==== | ||
+ | |||
+ | Ao iniciar uma coleta, manualmente ou automaticamente, a quantidade de registros coletados é apresentada na coluna records. Entretanto, o valor não se atualiza automaticamente, sendo necessário ficar atualizando a página manualmente. Para solucionar esse problema, pode-se colocar a página no modo de atualização constante, clicando no botão de Auto Refresh no menu superior, no topo da página (Figura 20). Com isso a página se atualiza automaticamente de tempo em tempo, facilitando o acompanhamento das coletas. | ||
+ | |||
+ | |||
+ | ''' Figura 20 – Detalhe da página destacando o botão de Auto Refresh''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 20 – Detalhe da página destacando o botão de Auto Refresh.jpg|200|center|Figura 20 – Detalhe da página destacando o botão de Auto Refresh]] | ||
+ | |||
+ | ====Agendando coletas==== | ||
+ | |||
+ | |||
+ | Além das coletas manuais, podem-se agendar coletas automáticas a serem executadas em data e hora determinadas. Para tanto, selecione o data set, clique com botão direito e escolha a opção “Schedule Ingest” (Figura 21). Com isso pode-se agendar coletas periódicas a ocorrerem em períodos com menor tráfego, impactando menos no uso de recursos de rede. Com isso pode-se manter a base atualizadas, com coletas mais adequadas ao provedor de dados. | ||
+ | |||
+ | |||
+ | |||
+ | ''' Figura 21 – Detalhe da página para configurar coleta agendada''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 21 – Detalhe da página para configurar coleta agendada.jpg|200|center|Figura 21 – Detalhe da página para configurar coleta agendada]] | ||
+ | |||
+ | |||
+ | Ao selecionar a opção “Schedule Ingest” um calendário é apresentado para que se agendem as coletas. Deve-se, também, indicar a hora de início da coleta por meio de campos que se seleciona a hora e o minuto para início da coleta. A coleta agendada pode ser incremental (Incremental ingest) ou completa (full Ingest), basta marcar a opção desejada. Da mesma forma que pode-se marcar a periodicidade da coleta para ser diária, semanal mensal, bimensal e assim por diante (Figura 22). | ||
+ | |||
+ | |||
+ | ''' Figura 22''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 22.jpg|200|center|Figura 22]] | ||
+ | |||
+ | |||
+ | Em seguida selecione o dia, hora e os minutos, logo depois o tipo de coleta, que pode ser Incremental ou Full. Se for Incremental, o Repox somente coletará os novos registros e os alterados, se for a Full, o Repox vai fazer uma coleta completa. Também é preciso definir a frequência da coleta, que pode ser diária, semanal ou mensal. Com isso, o agendamento torna-se bem especificado, possibilitando que ocorra da forma desejada. Caso ocorra erro na coleta, o status aparece em vermelho e requer análise dos logs da coleta, para determinar a causa da falha. | ||
+ | |||
+ | ===Exportando registros=== | ||
+ | |||
+ | |||
+ | O Repox oferta a funcionalidade de exportação dos registros de um ou mais DataSets. Para tanto, na página inicial há um botão para ativar a exportação de registros de DataSets (Figura 23). Assim, basta selecionar os DataSets que se deseja exportar os registros e clicar em “Export All”. Um arquivo com os registros exportado será gerado e pode ser utilizado como copia de segurança ou para migra de um sistema a outro. | ||
+ | |||
+ | |||
+ | ''' Figura 23 – Detalhe da página inicial destacando o botão para exportação de DataSets''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 23 – Detalhe da página inicial destacando o botão para exportação de DataSets.jpg|200|center|Figura 23 – Detalhe da página inicial destacando o botão para exportação de DataSets]] | ||
+ | |||
+ | |||
+ | ===Importar Registros=== | ||
+ | |||
+ | |||
+ | O Repox também possui a funcionalidade de importar registros para um DataSet. Basta selecionar o DataSet a receber os registros e clicar em “Import Data Providers (Figura 23). Para que funcione, será preciso criar o provedor de dados e o DataSet antes do processo de importação. Os registros a serem importados devem estar no formato XML no esquema de metadados compatível com o DataSet. | ||
+ | |||
+ | ''' Figura 24 – Detalhe da página inicial destacando a opção de importação de DataSets''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 24 – Detalhe da página inicial destacando a opção de importação de DataSets.jpg|200|center|Figura 24 – Detalhe da página inicial destacando a opção de importação de DataSets]] | ||
+ | |||
+ | |||
+ | Ao clicar na opção “ Import Data Providers” uma página PopUp será apresentada para que se possa selecionar o arquivo que contém os dados a serem importados (Figura 24). Ao clicar em “Browse” pode-se navegar pelo sistema de diretórios do seu computador ou sua rede, de forma a possibilitar a seleção do arquivo. Depois de selecionado o arquivo, basta clicar em “import”. Caso ocorra algum erro, o status do DataSet torna-se vermelho e deve-se olhar os logs do sistema para determinar o motivo da falha.[ | ||
+ | |||
+ | ''' Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado.jpg|200|center|Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado]] | ||
+ | |||
+ | ===Estatísticas=== | ||
+ | |||
+ | |||
+ | Para obter informações sobre a base de dados e os processos executados pelo REPOX, clique em Statistics no menu principal no topo da página inicial (Figura 25). Na página de estatísticas é apresentado informações sobre os provedores de dados, DataSets, coletas, quantidade de dados coletados e esquemas de metadados utilizados para a coleta, dando uma visão geral da base de dados. Somente os usuários administradores possuem permissão para acessar essa página. | ||
+ | |||
+ | |||
+ | ''' Figura 26 – Detalhe da página inicial destacando a opção Statistics''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 26 – Detalhe da página inicial destacando a opção Statistics.jpg|200|center|Figura 26 – Detalhe da página inicial destacando a opção Statistics]] | ||
+ | |||
+ | |||
+ | ===Mapeadores=== | ||
+ | |||
+ | |||
+ | Para adicionar um arquivo de transformação XSLT (transformar um conjunto de dados a partir de seu esquema original para outra), clique no botão "MDR" no menu superior na página inicial. (Figura 26). Esta opção é útil para coletar metadados em um esquema e transformá-lo em outro. Da mesma forma que permite a correção do conteúdo de metadados, de forma a possibilitar a normalização. Os Mapeadores ou CrossWalk são realmente úteis em sistemas que coletam metadados de sistemas diferentes e precisam de ajustar os metados a uma determinada padronização. | ||
+ | |||
+ | |||
+ | ''' Figura 27 – Detalhe do Menu principal destacando a opção MDR''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 27 – Detalhe do Menu principal destacando a opção MDR.jpg|200|center|Figura 27 – Detalhe do Menu principal destacando a opção MDR]] | ||
+ | |||
+ | Após clicar na opção MDR, uma abre-se um menu secundário que possibilita criar novas entradas para transformadas (Figura 27). Essas transformadas já devem ter sido criadas em um arquivo XML com formato XSLT, apenas para ser carregada nesse processo. Em muitos casos utilizam-se programas que ajudam nesse desenvolvimento de transformadas XML. | ||
+ | |||
+ | ''' Figura 28 – Detalhe da página com a opção de criar uma nova transformada''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 28 – Detalhe da página com a opção de criar uma nova transformada.jpg|200|center|Figura 28 – Detalhe da página com a opção de criar uma nova transformada]] | ||
+ | |||
+ | |||
+ | Ao clicar na opção New Transformation, um formulário será aberto para cadastramento da nova transformada (figura 28). Assim, basta preencher os campos que identificam a nova transformada e carregar o arquivo referente a nova transformada. O formulário possui os seguintes campos: | ||
+ | |||
+ | * Identifier: Identificador da transformação. | ||
+ | * Description: Descrição da transformação. | ||
+ | * Sorce Format: Formato da fonte de transformação. | ||
+ | * Version: Booleano para identificar uma nova versão. | ||
+ | * Transformation File (XSL): Selecione o arquivo xslt. | ||
+ | |||
+ | Após o preenchimento de todos os campos, basta clicar em “save” para que a nova transformada esteja pronta para ser aplicada em algum provedor de dados. | ||
+ | |||
+ | |||
+ | ''' Figura 29 – Detalhe da página para carregar uma transformada''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 29 – Detalhe da página para carregar uma transformada.jpg|200|center|Figura 29 – Detalhe da página para carregar uma transformada]] | ||
+ | |||
+ | |||
+ | ===Testando um provedor de dados=== | ||
+ | |||
+ | |||
+ | |||
+ | Uma funcionalidade útil ofertada pelo REPOX serve para testar um provedor de dados e pode ser utilizada para verificar erros. Para acessar basta clicar em “OAI-PMH Tests” no menu principal do REPOX, no topo da página (Figura 29). Essa funcionalidade permite executar todos os verbos ofertados pelo protocolo OAI-PMH em provedor de dados, via sua URL. Com isso pode-se verificar erros mais pontuais ou verificar disponibilidade de coleta. Entretanto, requer conhecimento sobre quais parâmetros cada verbo OAI-PMH requer. | ||
+ | |||
+ | |||
+ | ''' Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados.jpg|200|center|Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados]] | ||
+ | |||
+ | |||
+ | Na página de teste de provedores de dados há três áreas distintas: | ||
+ | |||
+ | * Parameters: nesta área devem-se informar os parâmetros requeridos para o testes, sendo que os parâmetros dependem do verbo, indicado na área de “Operations”, sendo que a URL do provedor de dados deve estar presente em todas as opções. | ||
+ | * Operations: nesta área seleciona-se o verbo a ser executado no provedor de dados. Note que dependendo do verbo selecionado, determinado parâmetro deverá ser informado na área “Parameters”. | ||
+ | * Response: a resposta dos da execução dos verbos será apresentada nesta área. | ||
+ | |||
+ | |||
+ | ''' Figura 31 – Detalhe da página para testar provedores de dados''' | ||
+ | |||
+ | |||
+ | [[Arquivo:Figura 31 – Detalhe da página para testar provedores de dados.jpg|200|center|Figura 31 – Detalhe da página para testar provedores de dados]] | ||
+ | |||
+ | |||
+ | ==Referências== | ||
+ | |||
+ | |||
+ | * SAYÃO, L. F.; MARCONDES, C. H. O desafio da interoperabilidade e as novas perspectivas para as bibliotecas digitais. Transinformação, Campinas, v. 20, n. 2, p. 133-148, maio/ago., 2008. | ||
+ | |||
+ | * SENA, N. K. Open Archives: caminho alternativo para a comunicação científica. Ciência da Informação, Brasília: v. 29, n. 3, p. 71-78, set./dez. 2000. Disponível em: <http://www.ibict.br/arquivosabertos/2930007.pdf>. Acesso em: 24 mar. 2014. | ||
+ | |||
+ | * WEITZEL, S. R. Iniciativa de arquivos abertos como nova forma de comunicação científica., 2005 . In III Seminário Internacional Latino-Americano de Pesquisa em Comunicação, São Paulo (Brasil), 12-14 May 2005. (Unpublished) [Conference paper] | ||
+ | |||
+ | * REPOX – | ||
+ | |||
+ | * PEDROSA, G.; EDMUNDO, J. D4.4 – Full-text content delivered to Europeana: Appendix – REPOX in The European Library. 2012. |
Edição atual tal como às 16h51min de 7 de janeiro de 2015
Índice
|
Apresentação
A adoção de ferramentas prontas tornou-se a chave para a economia nas empresas, organizações e institutos, visto que altera o modelo tradicional da informática, que consistia no processo focado de desenvolvimento de programas. Com isso, criam-se novas oportunidades, principalmente na prestação de suporte às tecnologias adotadas. Com isso, requer-se documentação apropriada a divulgação de informação sobre as ferramentas, de acordo com o tipo de usuário.
Assim, o presente documento visa apresentar o software para criação de sistema agregador REPOX, destinado aos profissionais da Tecnologia da Informação e Comunicação (TIC). Para tanto, inclui parte teórica que embasou o desenvolvimento do software, de forma a apoiar a equipe no entendimento das funcionalidades implementadas. Com isso, facilitar o entendimento do sistema, não apenas explicando o uso da ferramenta.
Arquivos Abertos (Open Archieves)
O movimento dos arquivos abertos teve os preceitos lançados na Convenção de Santa Fé (estado do Novo México nos Estados Unidos), em 1999, com forte alinhamento com os conceitos do Movimento de Acesso Aberto. Dentre os conceitos firmados pelos estudiosos participantes do evento, pode-se destacar a interoperabilidade, que oferta embasamento para o desenvolvimento de ferramentas que possibilitam a troca de informação entre sistemas de informação acadêmica.
Com os arquivos abertos, Sena (2001) considera que a ciência ampliou as suas possibilidades, ao passo que possibilita a troca de dados, informações e conhecimentos de diversas áreas do conhecimento. Nesse ponto, o arquivo aberto oferta as definições de infraestrutura para que processos interdisciplinares ocorram, ampliando as possiblidades de acesso à informação, com a implementação da interoperabilidade.
Tanto que, Triska e Café (2001) considera a interoperabilidade o cerne dos arquivos abertos. Para a adoção da interoperabilidade seguem-se as orientações como: a) o uso de protocolo de comunicação comum (um conjunto de orientações para desenvolvimento de programas e não um programa em si), dados intercambiados no formato XML (eXtensible Markup Language) e a utilização de um esquema de metadados comum.
Com isso, Weitzel (2005) afirma que com a interoperabilidade pode criar sistema que colhe, preserva informação proveniente de vários sistemas e dá acesso à informação consolidada, apresentando uma maturidade técnica e tecnológica. Com isso, podem-se criar redes destinadas ao compartilhamento de informações.
Nesse contexto, Marcondes e Sayão (2008) considera que as redes correspondem à plena utilização da interoperabilidade, ofertando um serviço robusto, mas que requer maior esforço dos participantes. Com isso, os arquivos abertos estabelecem-se no âmbito do acesso aberto à informação, como base na criação de redes que ampliam a oferta de acesso, contribuindo à visibilidade das instituições parceiras.
Conceitos da Interoperabilidade
O processo de interoperabilidade, relacionado ao movimento de arquivos abertos, atende a existência de três elementos, os provedores de dados, os provedores de serviços e os agregadores. Como o foco está no intercambio de informação entre sistemas informatizados, de forma automática, os provedores de dados são os sistemas que ofertam os dados para que sejam coletados para os provedores de serviços, de forma a poderem ofertar serviços consolidados. Os agregadores são sistemas que coletam as informações como os provedores de serviços e, também, ofertam os dados coletados como os provedores de dados (figura 1).
Um provedor de dados dispõe seus dados na forma de sets, ou seja, conjunto de registros. Assim, a coleta pode ser feita em todo o provedor ou em apenas alguns sets. Os sets podem ser estruturais ou virtuais. Em grande parte dos provedores de dados os registros estão contidos em estruturas de organização, com os sets representando essas estruturas. Outros provedores criam sets virtuais conforme alguma característica ou para responder a algum provedor de serviço.
Para o processo de coleta automática de metadados (harvesting), pro sua vez, tem-se a utilização de um protocolo, os esquemas de metadados, os crosswalks e os mapeamentos. Esse processo é assíncrono, ocorrendo conforme planejamento, ou seja, um determinado agregador ou provedor de dados programa a ocorrência da coleta, conforme as necessidades.
No que ser refere ao protocolo, atualmente se concentram em dois, o Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) e o Open Archives Initiative Object Reuse and Exchange (OAI-ORE). Os dois protocolos possuem a mesma finalidade de coletar automaticamente metadados dos provedores de dados, mas se diferem apenas em questões simples, enquanto o OAI-PMH coleta apenas os metadados, o OAI-ORE permite coletar, os metadados, as relações entre os objetos digitais descritos pelos metadados e até os objetos digitais. Há duas implementações desses protocolos, um que faz a coleta e outro que responde. O REPOX, como agregador, implementa as duas camadas de protocolo, que coleta e responde a coleta.
Os metadados coletados se apresentam no formato XML, que facilita o processamento nos provedores de serviços e agregadores. Entretanto, devem estar em um esquema de metadados, um padrão que permite que os sistemas processem corretamente o conteúdo. Nesse ponto, grande parte dos sistemas que implementam a interoperabilidade responde, no mínimo com o esquema de metadados Dublin Core. O REPOX pode coletar e responder a vários esquemas de metadados graças à implementação dos Crosswalks.
Como os metadados são interoperados no formato XML, podem-se flexibilizar os provedores de dados, agregadores e provedores de serviços com os crosswalks, que são programas conversores, desenvolvidos em XSLT (eXtensible Stylesheet Language for Transformation). Assim, possibilita a transformação de um esquema de metadados para outros. No REPOX foram desenvolvidos alguns crosswaks para atender as necessidades da BDTD.
Outro ponto importante para os provedores de dados e agregadores é a normalização do conteúdo. Como coleta-se metadados de vários provedores de dados, em muitos casos, utilizam-se padrões diferentes. Por exemplo, para idioma têm-se padrões ISO com duas ou três letras. Assim, Português pode ser representado por: pt, pt_br ou por. Para unificar o conteúdo pode-se fazer uso de mapeadores, em campos que são padronizados nos provedores de dados, mas difere-se de um provedor para outro. Os mapeadores são implementados com XSLT, da mesma forma que os crosswalks.
Nesse contexto, o REPOX permite criar um agregador, com interface para gerenciamento do harvesting, com a utilização do protocolo OAI-PMH. Oferta, também, facilidades para desenvolvimento e integração de crosswalks e mapeadores. Com isso, torna-se uma ferramenta completa no que se refere ao harvesting.
O REPOX
O REPOX é um software livre e de código aberto para a criação de provedores de dados, agregadores e provedores de serviços (quadro 1), desenvolvido e mantido pelo Instituto Superior Técnico – IST de Portugal. Assim, possibilita a implementação de todos os elementos relacionados ao movimento dos arquivos abertos, tornando um software útil a instituições que desejam implementar serviços de arquivos aberto.
Quadro 1 – Resumo das implementações do REPOX
A estrutura do REPOX pode ser apresentada conforme as facilidades envolvidas, Para os administradores é composta por: gerenciamento de servidores de dados e datasets, gerenciamento de harvesing, gerenciamento de mapeadores, testador de provedores de dados, estatísticas e administração (Figura 2). Cada módulo oferta serviços destinados a gerenciar parte das facilidades ofertadas pelo REPOX. Esses módulos serão explicados nas próximas seções.
Operando o REPOX
A Operação do REPOX, descritas no presente guia, contempla as principais ações a serem executadas no gerenciamento de um agregador, em que se utilizam facilidades de coleta e resposta. Não tem o intuito de ser extensivo a todas as facilidades, visto não ser um manual de usuário, restringindo a ser o guia para operadores.
Logando no REPOX
A primeira tela do Repox é a de login, em que o Administrador do sistema se identifica de acordo com o usuário e senha, definidos no processo de instalação do Repox. No caso de esquecimento da senha, pode-se recuperar a senha na opção Recover my password, que envia a senha para o e-mail do Administrador do sistema (Figura 3). Este endereço de e-mail é informado no momento de instalação do Repox e pode ser alterado diretamente no arquivo de configuração, caso for necessário.
Figura 3 - detalhe da tela de loginPode-se, também, acessar o REPOX via LDAP, Para tanto se devem efetuar as configurações necessárias para que o REPOX consiga acessar os diretórios do LDAP. Pode-se logar como usuário anônimo (anonymous), mas esse usuário tem permissão apenas de visualizar as informações, sem a possibilidade de alteração de nenhum parâmetro. Para alterar a senha e e-mail do Administrador do REPOX, deve-se estar logado e basta clicar no ícone “Bem-vindo admin”. O sistema abrirá uma página pop-up que possibilita a alteração do email e senha do administrador. (Figura 4)
Página inicial do REPOX
A página inicial do REPOX, acessível logo após o login, pode ser dividida em quatro partes, simplesmente para entendimento, como apresentado na figura 5, Esta página pode apresentar mais ou menos opções dependendo do usuário. Neste caso, apresentamos a página apresentada para o administrador, que é o usuário com o maior privilégio no REPOX
Figura 5 – Detalhe da página inicial do REPOXItem Descrição
1 - Indica qual a versão do REPOX,
2 - Menu principal do REPOX,
3 - Indica qual o usuário está logado
4 - Área de trabalho do REPOX apresentado os provedores de dados e datasets, assim como as opções para gerencia-los.
A administração
A administração do REPOX compreende um grupo de cinco opções: Configuração, Gerenciamento de Usuários, Gerenciamento de Serviços Externos, Serviços REST e Gerenciamento de Tags (Figura 6). Cada opção possibilita a gerenciar ou configuração de parte do sistema. Por ser parte sensível, deve-se ter cautela em fazer alterações.
Figura 6 – Detalhe da página do REPOX, indicando a administração
Configuração
O formulário de configuração permite a configuração dos parâmetros do sistema de forma online. Estes parâmetros devem ser configurados na instalação ou em caso de mudanças na infraestrutura que abriga o REPOX. Para tanto, deve-se ter muito cuidado na configuração ou alteração dos parâmetros, para evitar problemas posteriores.
Figura 7 – Detalhe da página do Repox com as opções da configuração
Os principais parâmetros a serem configurados são os apresentados no quadro 2. Para alterar algum valor, basta sobrescrever os valores e clicar em “save”. Caso não queira guardar as modificações clique em “cancel”. Sugere-se que sempre copie os valores existentes antes de fazer alguma alteração, de forma a poder retornar ao valor original em caso de falhas ou problemas.
Quadro 2 – Parâmetros de configuração do REPOX
Gerenciando usuários
Como todo sistema, o REPOX possui gerenciamento de usuários, com a possibilidade de adicionar, alterar e remover usuários (figura 8).
Figura 8 - Detalhe da página de gerenciamento de usuário
Para adicionar um usuário novo clique em “Add User ”(Figura 8). O sistema abre uma tela pop-up para entrar com as seguintes do novo usuário, depois basta clicar em “save” para terminar o processo:
• Identificação do usuário, que pode ser o nome.
• Email do usuário, para possibilitar recuperar senha via email
• Papel:
o Admin : administrador do REPOX, com permissões para executar todos os processos de manutenção do sistema.
o Normal: usuário com todas as permissões, exceto a de criar novos usuários, que é exclusivo do Admin.
o Harvest: usuário que somente pode ver as informações, sem, no entanto, poder fazer alguma alteração.
Figura 9 – Detalhe da página pop-up para criar usuário novo
Gerenciamento de serviços externos
Os serviços externos são processos hospedados em outros servidores, que devem ser executados antes ou depois de uma coleta (figura 10). Os serviços externos devem estar de acordo com a arquitetura REST (REpresentational State Transfer), que possibilita a transferência de dados por meio de uma rede de computadores. Essa facilidade pode ser utilizada para processar dados coletados ou preparar o ambiente para a coleta.
Figura 10 – página para adicionar serviços externos
Gerenciando Provedores de dados
Os provedores de dados é a entidade que provê os dados no processo de coleta, por meio de seus datasets. Esta separação possibilita que se possa coletar coleções específicas de um mesmo provedor de dados, caso cada coleção seja definido, pelo provedor de dados, como um dataset (set). Dessa forma, um provedor de dados para o REPOX é um rótulo que identifica os datasets a serem coletados. As opções de gerenciamento de provedores de dados são: visualizar (apresentado na página inicial do REPOX), adicionar, alterar e remover, apresentados a seguir.
Adicionando Provedor de dados
Para adicionar um provedor de dados, clique em “criar Data Provider” na página inicial do REPOX. Essa opção está disponível para o Administrador, mas não é visível para outros usuários. Ao clicar em “criar Data Provider” uma página Pop-Up aparece para entrar com as informações do novo provedor de dados (figura 11). Precisa-se apenas do país ( a ser selecionado de uma lista normalizada), o nome do provedor e uma breve descrição. O país serve para colocar uma bandeira do país na visualização dos provedores de dados.
Figura 11 – Detalhe da página pop-Up para criação de provedor de dados
Alterar Provedor de dados
Para alterar um provedor de dados, entre na página inicial em que são apresentados todos os provedores de dados, selecione o provedor de dados que se deseja alterar e clique com o botão direito do mouse (figura 12). A opção para alterar o provedor de dados abre uma tela Pop-Up com as informações existentes, permitindo trocá-las.
Figura 12 – detalhe da página inicial, com provedor de dados selecionado, apresentado a opção de alteração
Remover Provedor de dados
Para remover um provedor de dados, entre na página inicial em que são apresentados todos os provedores de dados, selecione o provedor de dados que se deseja alterar e clique com o botão direito do mouse (figura 12). A opção de remover o provedor de dados requer uma confirmação, uma página Pop-Up será apresentada para confirmar a remoção (figura 13). Caso confirme o Provedor de dados será removido, caso não confirme permanece-se o Provedor de dados ativo.
Figura 13 – Página Pop-Up de confirmação de remoção de Provedor de Dados
Gerenciando DataSets
Um DataSet é a estrutura virtual que agrega os metadados coletados. Assim, para cada Provedor de dados deve-se criar um ou mais DataSets, dependendo da forma que a coleta (harvesting) é esquematizada. Em alguns casos, faz-se a coleta de todos os metadados, requerendo apenas um DataSet. Em outros casos, coletam-se Sets, partes do acervo. Assim, para cada Set que se deseja coletar é preciso criar um DataSet.
Adicionar DataSet
Por pertencer a um Provedor de Dados, a adição de um DataSet inclui-se nas facilidades relacionadas ao Provedor de Dados. Clica-se com o botão direito no mouse no Provedor de dados que se apresenta a opção para criar DataSet (figura 13). Pode-se, também, marcar o provedor de dados e clicar na opção de menu Criar DataSet.
Figura 14 – Opção para adicionar DataSet
Ao clicar em Criar DataSet, uma página PopUp se apresentará para o cadastramento do novo DataSet, de forma a inserir os dados (figura 14). Nesta página informa-se os dados do novo DataSet, iniciando por escolher a aba apropriada, OAI-PMH para provedores de dados Open Archieves, Folder para coleta em pastas, Z39.50 e SruUpdate para coletas em Catálogos que utilizam esses protocolos.
Figura 15 – Página de cadastramento do DataSet
Para os provedores de dados usuários do protocolo OAI-PMH os dados a serem inseridos são:
OAI URL: a URL do servidor a qual os metadados serão coletados. É altamente recomendável que clique em Verificar, para assegurar que a informação inserida está correta. Da mesma forma que ao verificar a URL facilitará a seleção dos Sets se for o caso.
OAI Set: nome do conjunto de dados no servidor OAI. Um conjunto é uma construção opcional para agrupamento de itens com a finalidade de coleta seletiva. Os repositórios podem organizar itens em conjunto. Se este campo não for fornecido, o Repox irá trazer todos os registros.
Formato de Metadados: Como a coleta pode ser efetuada utilizando vários formatos de metadados, como Dublin Core ou Mets, ao verificar a URL, esse campo se carrega com os esquemas de metadados a qual o provedor de dados responde.
Versão do Schema: Alguns esquemas de metadados possuem mais que uma versão. Assim será preciso selecionar a versão. Lista com as versões cadastradas. Aos fazer isso, os dois próximos campos serão preenchidos automaticamente, com a URL do esquema e do NameSpace.
Record Set: Insira aqui o nome do DataSet, podendo ou não ser o mesmo nome do Set ou do provedor de dados (em caso de coleta completa).
Descrição: Insira aqui uma pequena descrição do DataSet.
Transformação: uma transformação esquema pode ser usada para mapear os metadados originais, do esquema inicial para um novo esquema de metadados. As regras de mapeamento devem ser armazenadas em um arquivo XSLT.
Obtendo Informação do DataSet=
Para obter informação sobre um dataset, basta clicar em um dataset com o botão direitos o mouse, como na figura 14, apenas, selecione a opção “View Info”. Com isso uma página PopUp se abrirá apresentado as informações sobre o dataset, como na figura 16. Essa página trás informações gerais sobre o DataSet, apresentado na página inicial, assim como o acesos aos logs das últimas coletas. Opção útil para acompanhamento de coleta dos DataSets.
Figura 16 – Detalhe da página de informação do DataSet
Gerenciando a Coleta (Harvesting)
O harvesting ou coleta automática de metadados é o processo pelo qual um provedor de serviço se conecta ao um provedor de dados, coletando os metadados total ou de um set específico, para depositar esses metadados nos DataSets. A conxão dá-se por meio de protocolos de comunicação (OAI-PMH, Z39-50 ou outros) como se fosse o acesso a uma página web. A coleta de metadados dá-se por meio de processos request/response. Assim, o provedor de serviço implementa parte do protocolo que coleta metadados e o provedor de dados implementa a parte do protocolo que reponde a coleta.
O REPOX implementa tanto o protocolo que coleta, quanto o que responder a coleta, ou seja, é um agregador. Para tanto, disponibiliza uma URL que responde a coleta e gerencia provedores de dados e datasets para armazenar as coletas. Como os dados coletados ficam armazenados nos datasets, torna-se um processo de transferência de metadados entre os provedores de dados e o REPOX.
Este processo deve ser customizado para tornar-se automático, informando as datas e horários a serem executados e a forma que deve ser feito, mas também podendo ser executado manualmente. Este é o principal processo mantido pelo REPOX e para implementá-lo com a flexibilidade necessária é composto por várias funcionalidades, como o agendamento, mapeamento e outros.
Obtendo informações sobre as coletas
Como o objetivo principal do REPOX é gerenciar harvesting, a página inicial apresenta várias informações sobre os provedores de dados, DataSets e coletas. Nesta página, um cabeçalho indica várias informações sobre as coletas efetuadas (Figura 17). Como as coletas são efetuadas nos DataSets, as informações sobre a coleta feita é apresentada na linha do DataSet, sendo:
• OAI-PMH Schemes: indica quais os esquemas de metadados a qual a coleta pode ser feita, visto que um DataSet pode responder por mais que um esquema;
• Ingest Type: indica qual o esquema de metadados foi utilizado na última coleta, da mesma forma que indica qual o protocolo utilizado;
• Last Ingest: indica qual a data e horário da última coleta, independente se terminou corretamente ou não;
• Next Ingest: indica a data e horário da próxima coleta, caso tenha alguma coleta agendada;
• Records: indica a quantidade total de registros coletados nesse DataSet;
• Ingest Status: indica qual o resultado da última coleta, se terminou sem problemas o símbolo fica verde. Caso ocorra algum problema, o símbolo de status ficará vermelho. Ao clicar no símbolo, independente da cor, abre-se o log da última coleta. Com isso pode-se verificar os problemas, quando acontecerem.
Figura 17 – Detalhe da página inicial destacando as informações de harvesting
Comandando a coleta de metadados manualmente
Para iniciar um processo de coleta manualmente, primeiramente, deve-se selecionar o DataSet a qual se deseja que a coleta seja feita. Clique com o botão direito do mouse e selecione a opção Ingest Now. (Figura 18). Este comando faz com que a coleta se inicie imediatamente, conforme as especificações indicadas na criação do DataSet, assim, as configurações corretas do DataSet, devem ter sido efetuadas anteriormente, para que o harvesting ocorra sem problemas. O harvesting manual possibilita que a coleta seja efetuada a qualquer momento, desde que não tenha uma já ocorrendo, que neste caso, deve ser parada ou a coleta fica na fila para ser executada após a coleta atual finalizar.
Figura 18 – Opção para executar a coleta manualmente
Coletando uma amostra de dados (Ingest Sample)
Para testar um provedor de dados, pode-se, em muitos casos, fazer uma coleta manual com apenas uma amostra de dados. Assim, para executar essa opção, clique com o botão direito no data set e escolha a opção Ingest Sample (Figura 19). Nesta opção pode-se indicar a quantidade de registros para ser coletada. Com isso, pode-se testar a coleta de metadados em um provedor de dados coletando apenas uma quantidade significativa de metadados, sem a necessidade de completar uma coleta completa.
Figura 19 – Detalhe da página para coletar uma amostra de dados
Colocando o Refresh automático na página inicial
Ao iniciar uma coleta, manualmente ou automaticamente, a quantidade de registros coletados é apresentada na coluna records. Entretanto, o valor não se atualiza automaticamente, sendo necessário ficar atualizando a página manualmente. Para solucionar esse problema, pode-se colocar a página no modo de atualização constante, clicando no botão de Auto Refresh no menu superior, no topo da página (Figura 20). Com isso a página se atualiza automaticamente de tempo em tempo, facilitando o acompanhamento das coletas.
Figura 20 – Detalhe da página destacando o botão de Auto Refresh
Agendando coletas
Além das coletas manuais, podem-se agendar coletas automáticas a serem executadas em data e hora determinadas. Para tanto, selecione o data set, clique com botão direito e escolha a opção “Schedule Ingest” (Figura 21). Com isso pode-se agendar coletas periódicas a ocorrerem em períodos com menor tráfego, impactando menos no uso de recursos de rede. Com isso pode-se manter a base atualizadas, com coletas mais adequadas ao provedor de dados.
Figura 21 – Detalhe da página para configurar coleta agendada
Ao selecionar a opção “Schedule Ingest” um calendário é apresentado para que se agendem as coletas. Deve-se, também, indicar a hora de início da coleta por meio de campos que se seleciona a hora e o minuto para início da coleta. A coleta agendada pode ser incremental (Incremental ingest) ou completa (full Ingest), basta marcar a opção desejada. Da mesma forma que pode-se marcar a periodicidade da coleta para ser diária, semanal mensal, bimensal e assim por diante (Figura 22).
Figura 22
Em seguida selecione o dia, hora e os minutos, logo depois o tipo de coleta, que pode ser Incremental ou Full. Se for Incremental, o Repox somente coletará os novos registros e os alterados, se for a Full, o Repox vai fazer uma coleta completa. Também é preciso definir a frequência da coleta, que pode ser diária, semanal ou mensal. Com isso, o agendamento torna-se bem especificado, possibilitando que ocorra da forma desejada. Caso ocorra erro na coleta, o status aparece em vermelho e requer análise dos logs da coleta, para determinar a causa da falha.
Exportando registros
O Repox oferta a funcionalidade de exportação dos registros de um ou mais DataSets. Para tanto, na página inicial há um botão para ativar a exportação de registros de DataSets (Figura 23). Assim, basta selecionar os DataSets que se deseja exportar os registros e clicar em “Export All”. Um arquivo com os registros exportado será gerado e pode ser utilizado como copia de segurança ou para migra de um sistema a outro.
Figura 23 – Detalhe da página inicial destacando o botão para exportação de DataSets
Importar Registros
O Repox também possui a funcionalidade de importar registros para um DataSet. Basta selecionar o DataSet a receber os registros e clicar em “Import Data Providers (Figura 23). Para que funcione, será preciso criar o provedor de dados e o DataSet antes do processo de importação. Os registros a serem importados devem estar no formato XML no esquema de metadados compatível com o DataSet.
Figura 24 – Detalhe da página inicial destacando a opção de importação de DataSets
Ao clicar na opção “ Import Data Providers” uma página PopUp será apresentada para que se possa selecionar o arquivo que contém os dados a serem importados (Figura 24). Ao clicar em “Browse” pode-se navegar pelo sistema de diretórios do seu computador ou sua rede, de forma a possibilitar a seleção do arquivo. Depois de selecionado o arquivo, basta clicar em “import”. Caso ocorra algum erro, o status do DataSet torna-se vermelho e deve-se olhar os logs do sistema para determinar o motivo da falha.[
Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado
Estatísticas
Para obter informações sobre a base de dados e os processos executados pelo REPOX, clique em Statistics no menu principal no topo da página inicial (Figura 25). Na página de estatísticas é apresentado informações sobre os provedores de dados, DataSets, coletas, quantidade de dados coletados e esquemas de metadados utilizados para a coleta, dando uma visão geral da base de dados. Somente os usuários administradores possuem permissão para acessar essa página.
Figura 26 – Detalhe da página inicial destacando a opção Statistics
Mapeadores
Para adicionar um arquivo de transformação XSLT (transformar um conjunto de dados a partir de seu esquema original para outra), clique no botão "MDR" no menu superior na página inicial. (Figura 26). Esta opção é útil para coletar metadados em um esquema e transformá-lo em outro. Da mesma forma que permite a correção do conteúdo de metadados, de forma a possibilitar a normalização. Os Mapeadores ou CrossWalk são realmente úteis em sistemas que coletam metadados de sistemas diferentes e precisam de ajustar os metados a uma determinada padronização.
Figura 27 – Detalhe do Menu principal destacando a opção MDR
Após clicar na opção MDR, uma abre-se um menu secundário que possibilita criar novas entradas para transformadas (Figura 27). Essas transformadas já devem ter sido criadas em um arquivo XML com formato XSLT, apenas para ser carregada nesse processo. Em muitos casos utilizam-se programas que ajudam nesse desenvolvimento de transformadas XML.
Figura 28 – Detalhe da página com a opção de criar uma nova transformada
Ao clicar na opção New Transformation, um formulário será aberto para cadastramento da nova transformada (figura 28). Assim, basta preencher os campos que identificam a nova transformada e carregar o arquivo referente a nova transformada. O formulário possui os seguintes campos:
- Identifier: Identificador da transformação.
- Description: Descrição da transformação.
- Sorce Format: Formato da fonte de transformação.
- Version: Booleano para identificar uma nova versão.
- Transformation File (XSL): Selecione o arquivo xslt.
Após o preenchimento de todos os campos, basta clicar em “save” para que a nova transformada esteja pronta para ser aplicada em algum provedor de dados.
Figura 29 – Detalhe da página para carregar uma transformada
Testando um provedor de dados
Uma funcionalidade útil ofertada pelo REPOX serve para testar um provedor de dados e pode ser utilizada para verificar erros. Para acessar basta clicar em “OAI-PMH Tests” no menu principal do REPOX, no topo da página (Figura 29). Essa funcionalidade permite executar todos os verbos ofertados pelo protocolo OAI-PMH em provedor de dados, via sua URL. Com isso pode-se verificar erros mais pontuais ou verificar disponibilidade de coleta. Entretanto, requer conhecimento sobre quais parâmetros cada verbo OAI-PMH requer.
Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados
Na página de teste de provedores de dados há três áreas distintas:
- Parameters: nesta área devem-se informar os parâmetros requeridos para o testes, sendo que os parâmetros dependem do verbo, indicado na área de “Operations”, sendo que a URL do provedor de dados deve estar presente em todas as opções.
- Operations: nesta área seleciona-se o verbo a ser executado no provedor de dados. Note que dependendo do verbo selecionado, determinado parâmetro deverá ser informado na área “Parameters”.
- Response: a resposta dos da execução dos verbos será apresentada nesta área.
Figura 31 – Detalhe da página para testar provedores de dados
Referências
- SAYÃO, L. F.; MARCONDES, C. H. O desafio da interoperabilidade e as novas perspectivas para as bibliotecas digitais. Transinformação, Campinas, v. 20, n. 2, p. 133-148, maio/ago., 2008.
- SENA, N. K. Open Archives: caminho alternativo para a comunicação científica. Ciência da Informação, Brasília: v. 29, n. 3, p. 71-78, set./dez. 2000. Disponível em: <http://www.ibict.br/arquivosabertos/2930007.pdf>. Acesso em: 24 mar. 2014.
- WEITZEL, S. R. Iniciativa de arquivos abertos como nova forma de comunicação científica., 2005 . In III Seminário Internacional Latino-Americano de Pesquisa em Comunicação, São Paulo (Brasil), 12-14 May 2005. (Unpublished) [Conference paper]
- REPOX –
- PEDROSA, G.; EDMUNDO, J. D4.4 – Full-text content delivered to Europeana: Appendix – REPOX in The European Library. 2012.