Mudanças entre as edições de "Repox"

De IBICT
Ir para: navegação, pesquisa
(Importar Registros)
(Agendando coletas)
 
(19 edições intermediárias de 2 usuários não apresentadas)
Linha 24: Linha 24:
  
  
O processo de interoperabilidade, relacionado ao movimento de arquivos abertos,  atende a existência de três elementos, os provedores de dados, os provedores de dados e os agregadores. Como o foco está no intercambio de informação entre sistemas informatizados, de forma automática, os provedores de dados são os sistemas que ofertam os dados para que sejam coletados para os provedores de serviços, de forma a poderem ofertar serviços consolidados.  Os agregadores são sistemas que coletam as informações como os provedores de serviços e, também, ofertam os dados coletados como os provedores de dados (figura 1).
+
O processo de interoperabilidade, relacionado ao movimento de arquivos abertos,  atende a existência de três elementos, os provedores de dados, os provedores de serviços e os agregadores. Como o foco está no intercambio de informação entre sistemas informatizados, de forma automática, os provedores de dados são os sistemas que ofertam os dados para que sejam coletados para os provedores de serviços, de forma a poderem ofertar serviços consolidados.  Os agregadores são sistemas que coletam as informações como os provedores de serviços e, também, ofertam os dados coletados como os provedores de dados (figura 1).
  
  
Linha 376: Linha 376:
  
  
Ao selecionar a opção “Schedule Ingest” um calendário é apresentado para que se agendem as coletas. Deve-se, também, indicar a hora de início da coleta por meio de campos que se seleciona a hora e o minuto para início da coleta. A coleta agendada pode ser incremental (iIncremental ingest) ou completa (full Ingest), basta marcar a opção desejada. Da mesma forma que pode-se marcar a periodicidade da coleta para ser diária, semanal mensal, bimensal e assim por diante (Figura 22).  
+
Ao selecionar a opção “Schedule Ingest” um calendário é apresentado para que se agendem as coletas. Deve-se, também, indicar a hora de início da coleta por meio de campos que se seleciona a hora e o minuto para início da coleta. A coleta agendada pode ser incremental (Incremental ingest) ou completa (full Ingest), basta marcar a opção desejada. Da mesma forma que pode-se marcar a periodicidade da coleta para ser diária, semanal mensal, bimensal e assim por diante (Figura 22).  
  
  
Linha 386: Linha 386:
  
 
Em seguida selecione o dia, hora e os minutos, logo depois o tipo de coleta, que pode ser Incremental ou Full. Se for Incremental, o Repox somente coletará os novos registros e os alterados, se for a Full, o Repox vai fazer uma coleta completa. Também é preciso definir a frequência da coleta, que pode ser diária, semanal ou mensal. Com isso, o agendamento torna-se bem especificado, possibilitando que ocorra da forma desejada. Caso ocorra erro na coleta, o status aparece em vermelho e requer análise dos logs da coleta, para determinar a causa da falha.
 
Em seguida selecione o dia, hora e os minutos, logo depois o tipo de coleta, que pode ser Incremental ou Full. Se for Incremental, o Repox somente coletará os novos registros e os alterados, se for a Full, o Repox vai fazer uma coleta completa. Também é preciso definir a frequência da coleta, que pode ser diária, semanal ou mensal. Com isso, o agendamento torna-se bem especificado, possibilitando que ocorra da forma desejada. Caso ocorra erro na coleta, o status aparece em vermelho e requer análise dos logs da coleta, para determinar a causa da falha.
 
 
  
 
===Exportando registros===
 
===Exportando registros===
Linha 418: Linha 416:
  
 
[[Arquivo:Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado.jpg|200|center|Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado]]
 
[[Arquivo:Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado.jpg|200|center|Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado]]
 
  
 
===Estatísticas===
 
===Estatísticas===
 +
 +
 +
Para obter informações sobre a base de dados e os processos executados pelo REPOX, clique em Statistics no menu principal no topo da página inicial (Figura 25). Na página de estatísticas é apresentado informações sobre os provedores de dados, DataSets, coletas, quantidade de dados coletados e esquemas de metadados utilizados para a coleta, dando uma visão geral da base de dados. Somente os usuários administradores possuem permissão para acessar essa página.
 +
 +
 +
''' Figura 26 – Detalhe da página inicial destacando a opção Statistics'''
 +
 +
 +
[[Arquivo:Figura 26 – Detalhe da página inicial destacando a opção Statistics.jpg|200|center|Figura 26 – Detalhe da página inicial destacando a opção Statistics]]
 +
 +
 +
===Mapeadores===
 +
 +
 +
Para adicionar um arquivo de transformação XSLT (transformar um conjunto de dados a partir de seu esquema original para outra), clique no botão "MDR" no menu superior na página inicial. (Figura 26). Esta opção é útil para coletar metadados em um esquema e transformá-lo em outro. Da mesma forma que permite a correção do conteúdo de metadados, de forma a possibilitar a normalização. Os Mapeadores ou CrossWalk são realmente úteis em sistemas que coletam metadados de sistemas diferentes e precisam de ajustar os metados a uma determinada padronização.
 +
 +
 +
''' Figura 27 – Detalhe do Menu principal destacando a opção MDR'''
 +
 +
 +
[[Arquivo:Figura 27 – Detalhe do Menu principal destacando a opção MDR.jpg|200|center|Figura 27 – Detalhe do Menu principal destacando a opção MDR]]
 +
 +
Após clicar na opção MDR, uma abre-se um menu secundário que possibilita criar novas entradas para transformadas (Figura 27). Essas transformadas já devem ter sido criadas em um arquivo XML com formato XSLT,  apenas para ser carregada nesse processo. Em muitos casos utilizam-se programas que ajudam nesse desenvolvimento de transformadas XML.
 +
 +
''' Figura 28 – Detalhe da página com a opção de criar uma nova transformada'''
 +
 +
 +
[[Arquivo:Figura 28 – Detalhe da página com a opção de criar uma nova transformada.jpg|200|center|Figura 28 – Detalhe da página com a opção de criar uma nova transformada]]
 +
 +
 +
Ao clicar na opção New Transformation, um formulário será aberto para cadastramento da nova transformada (figura 28). Assim, basta preencher os campos que identificam a nova transformada e carregar o arquivo referente a nova transformada. O formulário possui os seguintes campos:
 +
 +
* Identifier: Identificador da transformação.
 +
* Description: Descrição da transformação.
 +
* Sorce Format: Formato da fonte de transformação.
 +
* Version: Booleano para identificar uma nova versão.
 +
* Transformation File (XSL): Selecione o arquivo xslt.
 +
 +
Após o preenchimento de todos os campos, basta clicar em “save” para que a nova transformada esteja pronta para ser aplicada em algum provedor de dados.
 +
 +
 +
''' Figura 29 – Detalhe da página para carregar uma transformada'''
 +
 +
 +
[[Arquivo:Figura 29 – Detalhe da página para carregar uma transformada.jpg|200|center|Figura 29 – Detalhe da página para carregar uma transformada]]
 +
 +
 +
===Testando um provedor de dados===
 +
 +
 +
 +
Uma funcionalidade útil ofertada pelo REPOX serve para testar um provedor de dados e pode ser utilizada para verificar erros. Para acessar basta clicar em “OAI-PMH Tests” no menu principal do REPOX, no topo da página (Figura 29).  Essa funcionalidade permite executar todos os verbos ofertados pelo protocolo OAI-PMH em provedor de dados, via sua URL.  Com isso pode-se verificar erros mais pontuais ou verificar disponibilidade de coleta. Entretanto, requer conhecimento sobre quais parâmetros cada verbo OAI-PMH requer.
 +
 +
 +
''' Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados'''
 +
 +
 +
[[Arquivo:Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados.jpg|200|center|Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados]]
 +
 +
 +
Na página de teste de provedores de dados há três áreas distintas:
 +
 +
* Parameters: nesta área devem-se informar os parâmetros requeridos para o testes, sendo que os parâmetros dependem do verbo, indicado na área de “Operations”, sendo que a URL do provedor de dados deve estar presente em todas as opções.
 +
* Operations: nesta área seleciona-se o verbo a ser executado no provedor de dados. Note que dependendo do verbo selecionado, determinado parâmetro deverá ser informado na área “Parameters”.
 +
* Response:  a resposta dos da execução dos verbos será apresentada nesta área.
 +
 +
 +
''' Figura 31 – Detalhe da página para testar provedores de dados'''
 +
 +
 +
[[Arquivo:Figura 31 – Detalhe da página para testar provedores de dados.jpg|200|center|Figura 31 – Detalhe da página para testar provedores de dados]]
 +
 +
 +
==Referências==
 +
 +
 +
* SAYÃO, L. F.; MARCONDES, C. H. O desafio da interoperabilidade e as novas perspectivas para as bibliotecas digitais. Transinformação, Campinas, v. 20, n. 2, p. 133-148, maio/ago., 2008.
 +
 +
* SENA, N. K. Open Archives: caminho alternativo para a comunicação científica. Ciência da Informação, Brasília: v. 29, n. 3, p. 71-78, set./dez. 2000. Disponível  em: <http://www.ibict.br/arquivosabertos/2930007.pdf>. Acesso em: 24 mar. 2014. 
 +
 +
* WEITZEL, S. R. Iniciativa de arquivos abertos como nova forma de comunicação científica., 2005 . In III Seminário Internacional Latino-Americano de Pesquisa em Comunicação, São Paulo (Brasil), 12-14 May 2005. (Unpublished) [Conference paper]
 +
 +
* REPOX –
 +
 +
* PEDROSA, G.; EDMUNDO, J. D4.4 – Full-text content delivered to Europeana: Appendix – REPOX in The European Library. 2012.

Edição atual tal como às 16h51min de 7 de janeiro de 2015

Índice

Apresentação

A adoção de ferramentas prontas tornou-se a chave para a economia nas empresas, organizações e institutos, visto que altera o modelo tradicional da informática, que consistia no processo focado de desenvolvimento de programas. Com isso, criam-se novas oportunidades, principalmente na prestação de suporte às tecnologias adotadas. Com isso, requer-se documentação apropriada a divulgação de informação sobre as ferramentas, de acordo com o tipo de usuário.

Assim, o presente documento visa apresentar o software para criação de sistema agregador REPOX, destinado aos profissionais da Tecnologia da Informação e Comunicação (TIC). Para tanto, inclui parte teórica que embasou o desenvolvimento do software, de forma a apoiar a equipe no entendimento das funcionalidades implementadas. Com isso, facilitar o entendimento do sistema, não apenas explicando o uso da ferramenta.

Arquivos Abertos (Open Archieves)

O movimento dos arquivos abertos teve os preceitos lançados na Convenção de Santa Fé (estado do Novo México nos Estados Unidos), em 1999, com forte alinhamento com os conceitos do Movimento de Acesso Aberto. Dentre os conceitos firmados pelos estudiosos participantes do evento, pode-se destacar a interoperabilidade, que oferta embasamento para o desenvolvimento de ferramentas que possibilitam a troca de informação entre sistemas de informação acadêmica.


Com os arquivos abertos, Sena (2001) considera que a ciência ampliou as suas possibilidades, ao passo que possibilita a troca de dados, informações e conhecimentos de diversas áreas do conhecimento. Nesse ponto, o arquivo aberto oferta as definições de infraestrutura para que processos interdisciplinares ocorram, ampliando as possiblidades de acesso à informação, com a implementação da interoperabilidade.


Tanto que, Triska e Café (2001) considera a interoperabilidade o cerne dos arquivos abertos. Para a adoção da interoperabilidade seguem-se as orientações como: a) o uso de protocolo de comunicação comum (um conjunto de orientações para desenvolvimento de programas e não um programa em si), dados intercambiados no formato XML (eXtensible Markup Language) e a utilização de um esquema de metadados comum.


Com isso, Weitzel (2005) afirma que com a interoperabilidade pode criar sistema que colhe, preserva informação proveniente de vários sistemas e dá acesso à informação consolidada, apresentando uma maturidade técnica e tecnológica. Com isso, podem-se criar redes destinadas ao compartilhamento de informações.


Nesse contexto, Marcondes e Sayão (2008) considera que as redes correspondem à plena utilização da interoperabilidade, ofertando um serviço robusto, mas que requer maior esforço dos participantes. Com isso, os arquivos abertos estabelecem-se no âmbito do acesso aberto à informação, como base na criação de redes que ampliam a oferta de acesso, contribuindo à visibilidade das instituições parceiras.

Conceitos da Interoperabilidade

O processo de interoperabilidade, relacionado ao movimento de arquivos abertos, atende a existência de três elementos, os provedores de dados, os provedores de serviços e os agregadores. Como o foco está no intercambio de informação entre sistemas informatizados, de forma automática, os provedores de dados são os sistemas que ofertam os dados para que sejam coletados para os provedores de serviços, de forma a poderem ofertar serviços consolidados. Os agregadores são sistemas que coletam as informações como os provedores de serviços e, também, ofertam os dados coletados como os provedores de dados (figura 1).


Um provedor de dados dispõe seus dados na forma de sets, ou seja, conjunto de registros. Assim, a coleta pode ser feita em todo o provedor ou em apenas alguns sets. Os sets podem ser estruturais ou virtuais. Em grande parte dos provedores de dados os registros estão contidos em estruturas de organização, com os sets representando essas estruturas. Outros provedores criam sets virtuais conforme alguma característica ou para responder a algum provedor de serviço.


Para o processo de coleta automática de metadados (harvesting), pro sua vez, tem-se a utilização de um protocolo, os esquemas de metadados, os crosswalks e os mapeamentos. Esse processo é assíncrono, ocorrendo conforme planejamento, ou seja, um determinado agregador ou provedor de dados programa a ocorrência da coleta, conforme as necessidades.


No que ser refere ao protocolo, atualmente se concentram em dois, o Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) e o Open Archives Initiative Object Reuse and Exchange (OAI-ORE). Os dois protocolos possuem a mesma finalidade de coletar automaticamente metadados dos provedores de dados, mas se diferem apenas em questões simples, enquanto o OAI-PMH coleta apenas os metadados, o OAI-ORE permite coletar, os metadados, as relações entre os objetos digitais descritos pelos metadados e até os objetos digitais. Há duas implementações desses protocolos, um que faz a coleta e outro que responde. O REPOX, como agregador, implementa as duas camadas de protocolo, que coleta e responde a coleta.


Os metadados coletados se apresentam no formato XML, que facilita o processamento nos provedores de serviços e agregadores. Entretanto, devem estar em um esquema de metadados, um padrão que permite que os sistemas processem corretamente o conteúdo. Nesse ponto, grande parte dos sistemas que implementam a interoperabilidade responde, no mínimo com o esquema de metadados Dublin Core. O REPOX pode coletar e responder a vários esquemas de metadados graças à implementação dos Crosswalks.


Como os metadados são interoperados no formato XML, podem-se flexibilizar os provedores de dados, agregadores e provedores de serviços com os crosswalks, que são programas conversores, desenvolvidos em XSLT (eXtensible Stylesheet Language for Transformation). Assim, possibilita a transformação de um esquema de metadados para outros. No REPOX foram desenvolvidos alguns crosswaks para atender as necessidades da BDTD.


Outro ponto importante para os provedores de dados e agregadores é a normalização do conteúdo. Como coleta-se metadados de vários provedores de dados, em muitos casos, utilizam-se padrões diferentes. Por exemplo, para idioma têm-se padrões ISO com duas ou três letras. Assim, Português pode ser representado por: pt, pt_br ou por. Para unificar o conteúdo pode-se fazer uso de mapeadores, em campos que são padronizados nos provedores de dados, mas difere-se de um provedor para outro. Os mapeadores são implementados com XSLT, da mesma forma que os crosswalks.


Nesse contexto, o REPOX permite criar um agregador, com interface para gerenciamento do harvesting, com a utilização do protocolo OAI-PMH. Oferta, também, facilidades para desenvolvimento e integração de crosswalks e mapeadores. Com isso, torna-se uma ferramenta completa no que se refere ao harvesting.

Figura 1 - Elementos do REPOX
Figura 1 - Elementos do REPOX

O REPOX

O REPOX é um software livre e de código aberto para a criação de provedores de dados, agregadores e provedores de serviços (quadro 1), desenvolvido e mantido pelo Instituto Superior Técnico – IST de Portugal. Assim, possibilita a implementação de todos os elementos relacionados ao movimento dos arquivos abertos, tornando um software útil a instituições que desejam implementar serviços de arquivos aberto.

Quadro 1 – Resumo das implementações do REPOX
Quadro 1 – Resumo das implementações do REPOX


A estrutura do REPOX pode ser apresentada conforme as facilidades envolvidas, Para os administradores é composta por: gerenciamento de servidores de dados e datasets, gerenciamento de harvesing, gerenciamento de mapeadores, testador de provedores de dados, estatísticas e administração (Figura 2). Cada módulo oferta serviços destinados a gerenciar parte das facilidades ofertadas pelo REPOX. Esses módulos serão explicados nas próximas seções.

Figura 2
Figura 2.jpg


Operando o REPOX

A Operação do REPOX, descritas no presente guia, contempla as principais ações a serem executadas no gerenciamento de um agregador, em que se utilizam facilidades de coleta e resposta. Não tem o intuito de ser extensivo a todas as facilidades, visto não ser um manual de usuário, restringindo a ser o guia para operadores.


Logando no REPOX

A primeira tela do Repox é a de login, em que o Administrador do sistema se identifica de acordo com o usuário e senha, definidos no processo de instalação do Repox. No caso de esquecimento da senha, pode-se recuperar a senha na opção Recover my password, que envia a senha para o e-mail do Administrador do sistema (Figura 3). Este endereço de e-mail é informado no momento de instalação do Repox e pode ser alterado diretamente no arquivo de configuração, caso for necessário.

Figura 3 - detalhe da tela de login
Figura 3 - detalhe da tela de login

Pode-se, também, acessar o REPOX via LDAP, Para tanto se devem efetuar as configurações necessárias para que o REPOX consiga acessar os diretórios do LDAP. Pode-se logar como usuário anônimo (anonymous), mas esse usuário tem permissão apenas de visualizar as informações, sem a possibilidade de alteração de nenhum parâmetro. Para alterar a senha e e-mail do Administrador do REPOX, deve-se estar logado e basta clicar no ícone “Bem-vindo admin”. O sistema abrirá uma página pop-up que possibilita a alteração do email e senha do administrador. (Figura 4)


Figura 4 - Detalhe da página de alteração do email e senha do adminstrador
Figura 4 - Detalhe da página de alteração do email e senha do adminstrador


Página inicial do REPOX

A página inicial do REPOX, acessível logo após o login, pode ser dividida em quatro partes, simplesmente para entendimento, como apresentado na figura 5, Esta página pode apresentar mais ou menos opções dependendo do usuário. Neste caso, apresentamos a página apresentada para o administrador, que é o usuário com o maior privilégio no REPOX

Figura 5 – Detalhe da página inicial do REPOX
Figura 5 – Detalhe da página inicial do REPOX

Item Descrição

1 - Indica qual a versão do REPOX,

2 - Menu principal do REPOX,

3 - Indica qual o usuário está logado

4 - Área de trabalho do REPOX apresentado os provedores de dados e datasets, assim como as opções para gerencia-los.

A administração

A administração do REPOX compreende um grupo de cinco opções: Configuração, Gerenciamento de Usuários, Gerenciamento de Serviços Externos, Serviços REST e Gerenciamento de Tags (Figura 6). Cada opção possibilita a gerenciar ou configuração de parte do sistema. Por ser parte sensível, deve-se ter cautela em fazer alterações.


Figura 6 – Detalhe da página do REPOX, indicando a administração


Figura 6 – Detalhe da página do REPOX, indicando a administração


Configuração

O formulário de configuração permite a configuração dos parâmetros do sistema de forma online. Estes parâmetros devem ser configurados na instalação ou em caso de mudanças na infraestrutura que abriga o REPOX. Para tanto, deve-se ter muito cuidado na configuração ou alteração dos parâmetros, para evitar problemas posteriores.

Figura 7 – Detalhe da página do Repox com as opções da configuração


Figura 7 – Detalhe da página do Repox com as opções da configuração



Os principais parâmetros a serem configurados são os apresentados no quadro 2. Para alterar algum valor, basta sobrescrever os valores e clicar em “save”. Caso não queira guardar as modificações clique em “cancel”. Sugere-se que sempre copie os valores existentes antes de fazer alguma alteração, de forma a poder retornar ao valor original em caso de falhas ou problemas.

Quadro 2 – Parâmetros de configuração do REPOX


Quadro 2 – Parâmetros de configuração do REPOX



Gerenciando usuários

Como todo sistema, o REPOX possui gerenciamento de usuários, com a possibilidade de adicionar, alterar e remover usuários (figura 8).


Figura 8 - Detalhe da página de gerenciamento de usuário


Figura 8 -  Detalhe da página de gerenciamento de usuário


Para adicionar um usuário novo clique em “Add User ”(Figura 8). O sistema abre uma tela pop-up para entrar com as seguintes do novo usuário, depois basta clicar em “save” para terminar o processo:


• Identificação do usuário, que pode ser o nome.


• Email do usuário, para possibilitar recuperar senha via email


• Papel:

o	Admin : administrador do  REPOX, com permissões para executar todos os processos de manutenção do sistema.
o	Normal: usuário com todas as permissões, exceto a de criar novos usuários, que é exclusivo do Admin.
o	Harvest: usuário que somente pode ver as informações, sem, no entanto, poder fazer alguma alteração.



Figura 9 – Detalhe da página pop-up para criar usuário novo


Figura 9 – Detalhe da página pop-up para criar usuário novo


Gerenciamento de serviços externos

Os serviços externos são processos hospedados em outros servidores, que devem ser executados antes ou depois de uma coleta (figura 10). Os serviços externos devem estar de acordo com a arquitetura REST (REpresentational State Transfer), que possibilita a transferência de dados por meio de uma rede de computadores. Essa facilidade pode ser utilizada para processar dados coletados ou preparar o ambiente para a coleta.


Figura 10 – página para adicionar serviços externos


Figura 10 – página para adicionar serviços externos

Gerenciando Provedores de dados

Os provedores de dados é a entidade que provê os dados no processo de coleta, por meio de seus datasets. Esta separação possibilita que se possa coletar coleções específicas de um mesmo provedor de dados, caso cada coleção seja definido, pelo provedor de dados, como um dataset (set). Dessa forma, um provedor de dados para o REPOX é um rótulo que identifica os datasets a serem coletados. As opções de gerenciamento de provedores de dados são: visualizar (apresentado na página inicial do REPOX), adicionar, alterar e remover, apresentados a seguir.


Adicionando Provedor de dados

Para adicionar um provedor de dados, clique em “criar Data Provider” na página inicial do REPOX. Essa opção está disponível para o Administrador, mas não é visível para outros usuários. Ao clicar em “criar Data Provider” uma página Pop-Up aparece para entrar com as informações do novo provedor de dados (figura 11). Precisa-se apenas do país ( a ser selecionado de uma lista normalizada), o nome do provedor e uma breve descrição. O país serve para colocar uma bandeira do país na visualização dos provedores de dados.


Figura 11 – Detalhe da página pop-Up para criação de provedor de dados


Figura 11 – Detalhe da página pop-Up para criação de provedor de dados
Alterar Provedor de dados

Para alterar um provedor de dados, entre na página inicial em que são apresentados todos os provedores de dados, selecione o provedor de dados que se deseja alterar e clique com o botão direito do mouse (figura 12). A opção para alterar o provedor de dados abre uma tela Pop-Up com as informações existentes, permitindo trocá-las.

Figura 12 – detalhe da página inicial, com provedor de dados selecionado, apresentado a opção de alteração


Figura 12 – detalhe da página inicial, com provedor de dados selecionado, apresentado a opção de alteração


Remover Provedor de dados

Para remover um provedor de dados, entre na página inicial em que são apresentados todos os provedores de dados, selecione o provedor de dados que se deseja alterar e clique com o botão direito do mouse (figura 12). A opção de remover o provedor de dados requer uma confirmação, uma página Pop-Up será apresentada para confirmar a remoção (figura 13). Caso confirme o Provedor de dados será removido, caso não confirme permanece-se o Provedor de dados ativo.


Figura 13 – Página Pop-Up de confirmação de remoção de Provedor de Dados


Figura 13 – Página Pop-Up de confirmação de remoção de Provedor de Dados


Gerenciando DataSets

Um DataSet é a estrutura virtual que agrega os metadados coletados. Assim, para cada Provedor de dados deve-se criar um ou mais DataSets, dependendo da forma que a coleta (harvesting) é esquematizada. Em alguns casos, faz-se a coleta de todos os metadados, requerendo apenas um DataSet. Em outros casos, coletam-se Sets, partes do acervo. Assim, para cada Set que se deseja coletar é preciso criar um DataSet.


Adicionar DataSet

Por pertencer a um Provedor de Dados, a adição de um DataSet inclui-se nas facilidades relacionadas ao Provedor de Dados. Clica-se com o botão direito no mouse no Provedor de dados que se apresenta a opção para criar DataSet (figura 13). Pode-se, também, marcar o provedor de dados e clicar na opção de menu Criar DataSet.

Figura 14 – Opção para adicionar DataSet


Figura 14 – Opção para adicionar DataSet


Ao clicar em Criar DataSet, uma página PopUp se apresentará para o cadastramento do novo DataSet, de forma a inserir os dados (figura 14). Nesta página informa-se os dados do novo DataSet, iniciando por escolher a aba apropriada, OAI-PMH para provedores de dados Open Archieves, Folder para coleta em pastas, Z39.50 e SruUpdate para coletas em Catálogos que utilizam esses protocolos.

Figura 15 – Página de cadastramento do DataSet


Figura 15 – Página de cadastramento do DataSet


Para os provedores de dados usuários do protocolo OAI-PMH os dados a serem inseridos são:


OAI URL: a URL do servidor a qual os metadados serão coletados. É altamente recomendável que clique em Verificar, para assegurar que a informação inserida está correta. Da mesma forma que ao verificar a URL facilitará a seleção dos Sets se for o caso.


OAI Set: nome do conjunto de dados no servidor OAI. Um conjunto é uma construção opcional para agrupamento de itens com a finalidade de coleta seletiva. Os repositórios podem organizar itens em conjunto. Se este campo não for fornecido, o Repox irá trazer todos os registros.


Formato de Metadados: Como a coleta pode ser efetuada utilizando vários formatos de metadados, como Dublin Core ou Mets, ao verificar a URL, esse campo se carrega com os esquemas de metadados a qual o provedor de dados responde.


Versão do Schema: Alguns esquemas de metadados possuem mais que uma versão. Assim será preciso selecionar a versão. Lista com as versões cadastradas. Aos fazer isso, os dois próximos campos serão preenchidos automaticamente, com a URL do esquema e do NameSpace.


Record Set: Insira aqui o nome do DataSet, podendo ou não ser o mesmo nome do Set ou do provedor de dados (em caso de coleta completa).


Descrição: Insira aqui uma pequena descrição do DataSet.


Transformação: uma transformação esquema pode ser usada para mapear os metadados originais, do esquema inicial para um novo esquema de metadados. As regras de mapeamento devem ser armazenadas em um arquivo XSLT.


Obtendo Informação do DataSet=

Para obter informação sobre um dataset, basta clicar em um dataset com o botão direitos o mouse, como na figura 14, apenas, selecione a opção “View Info”. Com isso uma página PopUp se abrirá apresentado as informações sobre o dataset, como na figura 16. Essa página trás informações gerais sobre o DataSet, apresentado na página inicial, assim como o acesos aos logs das últimas coletas. Opção útil para acompanhamento de coleta dos DataSets.

Figura 16 – Detalhe da página de informação do DataSet


Figura 16 – Detalhe da página de informação do DataSet


Gerenciando a Coleta (Harvesting)

O harvesting ou coleta automática de metadados é o processo pelo qual um provedor de serviço se conecta ao um provedor de dados, coletando os metadados total ou de um set específico, para depositar esses metadados nos DataSets. A conxão dá-se por meio de protocolos de comunicação (OAI-PMH, Z39-50 ou outros) como se fosse o acesso a uma página web. A coleta de metadados dá-se por meio de processos request/response. Assim, o provedor de serviço implementa parte do protocolo que coleta metadados e o provedor de dados implementa a parte do protocolo que reponde a coleta.


O REPOX implementa tanto o protocolo que coleta, quanto o que responder a coleta, ou seja, é um agregador. Para tanto, disponibiliza uma URL que responde a coleta e gerencia provedores de dados e datasets para armazenar as coletas. Como os dados coletados ficam armazenados nos datasets, torna-se um processo de transferência de metadados entre os provedores de dados e o REPOX.


Este processo deve ser customizado para tornar-se automático, informando as datas e horários a serem executados e a forma que deve ser feito, mas também podendo ser executado manualmente. Este é o principal processo mantido pelo REPOX e para implementá-lo com a flexibilidade necessária é composto por várias funcionalidades, como o agendamento, mapeamento e outros.


Obtendo informações sobre as coletas

Como o objetivo principal do REPOX é gerenciar harvesting, a página inicial apresenta várias informações sobre os provedores de dados, DataSets e coletas. Nesta página, um cabeçalho indica várias informações sobre as coletas efetuadas (Figura 17). Como as coletas são efetuadas nos DataSets, as informações sobre a coleta feita é apresentada na linha do DataSet, sendo:

• OAI-PMH Schemes: indica quais os esquemas de metadados a qual a coleta pode ser feita, visto que um DataSet pode responder por mais que um esquema;


• Ingest Type: indica qual o esquema de metadados foi utilizado na última coleta, da mesma forma que indica qual o protocolo utilizado;


• Last Ingest: indica qual a data e horário da última coleta, independente se terminou corretamente ou não;


• Next Ingest: indica a data e horário da próxima coleta, caso tenha alguma coleta agendada;


• Records: indica a quantidade total de registros coletados nesse DataSet;


• Ingest Status: indica qual o resultado da última coleta, se terminou sem problemas o símbolo fica verde. Caso ocorra algum problema, o símbolo de status ficará vermelho. Ao clicar no símbolo, independente da cor, abre-se o log da última coleta. Com isso pode-se verificar os problemas, quando acontecerem.


Figura 17 – Detalhe da página inicial destacando as informações de harvesting


Figura 17 – Detalhe da página inicial destacando as informações de harvesting


Comandando a coleta de metadados manualmente

Para iniciar um processo de coleta manualmente, primeiramente, deve-se selecionar o DataSet a qual se deseja que a coleta seja feita. Clique com o botão direito do mouse e selecione a opção Ingest Now. (Figura 18). Este comando faz com que a coleta se inicie imediatamente, conforme as especificações indicadas na criação do DataSet, assim, as configurações corretas do DataSet, devem ter sido efetuadas anteriormente, para que o harvesting ocorra sem problemas. O harvesting manual possibilita que a coleta seja efetuada a qualquer momento, desde que não tenha uma já ocorrendo, que neste caso, deve ser parada ou a coleta fica na fila para ser executada após a coleta atual finalizar.


Figura 18 – Opção para executar a coleta manualmente


Figura 18 – Opção para executar a coleta manualmente


Coletando uma amostra de dados (Ingest Sample)

Para testar um provedor de dados, pode-se, em muitos casos, fazer uma coleta manual com apenas uma amostra de dados. Assim, para executar essa opção, clique com o botão direito no data set e escolha a opção Ingest Sample (Figura 19). Nesta opção pode-se indicar a quantidade de registros para ser coletada. Com isso, pode-se testar a coleta de metadados em um provedor de dados coletando apenas uma quantidade significativa de metadados, sem a necessidade de completar uma coleta completa.


Figura 19 – Detalhe da página para coletar uma amostra de dados


Figura 19 – Detalhe da página para coletar uma amostra de dados


Colocando o Refresh automático na página inicial

Ao iniciar uma coleta, manualmente ou automaticamente, a quantidade de registros coletados é apresentada na coluna records. Entretanto, o valor não se atualiza automaticamente, sendo necessário ficar atualizando a página manualmente. Para solucionar esse problema, pode-se colocar a página no modo de atualização constante, clicando no botão de Auto Refresh no menu superior, no topo da página (Figura 20). Com isso a página se atualiza automaticamente de tempo em tempo, facilitando o acompanhamento das coletas.


Figura 20 – Detalhe da página destacando o botão de Auto Refresh


Figura 20 – Detalhe da página destacando o botão de Auto Refresh

Agendando coletas

Além das coletas manuais, podem-se agendar coletas automáticas a serem executadas em data e hora determinadas. Para tanto, selecione o data set, clique com botão direito e escolha a opção “Schedule Ingest” (Figura 21). Com isso pode-se agendar coletas periódicas a ocorrerem em períodos com menor tráfego, impactando menos no uso de recursos de rede. Com isso pode-se manter a base atualizadas, com coletas mais adequadas ao provedor de dados.


Figura 21 – Detalhe da página para configurar coleta agendada


Figura 21 – Detalhe da página para configurar coleta agendada


Ao selecionar a opção “Schedule Ingest” um calendário é apresentado para que se agendem as coletas. Deve-se, também, indicar a hora de início da coleta por meio de campos que se seleciona a hora e o minuto para início da coleta. A coleta agendada pode ser incremental (Incremental ingest) ou completa (full Ingest), basta marcar a opção desejada. Da mesma forma que pode-se marcar a periodicidade da coleta para ser diária, semanal mensal, bimensal e assim por diante (Figura 22).


Figura 22


Figura 22


Em seguida selecione o dia, hora e os minutos, logo depois o tipo de coleta, que pode ser Incremental ou Full. Se for Incremental, o Repox somente coletará os novos registros e os alterados, se for a Full, o Repox vai fazer uma coleta completa. Também é preciso definir a frequência da coleta, que pode ser diária, semanal ou mensal. Com isso, o agendamento torna-se bem especificado, possibilitando que ocorra da forma desejada. Caso ocorra erro na coleta, o status aparece em vermelho e requer análise dos logs da coleta, para determinar a causa da falha.

Exportando registros

O Repox oferta a funcionalidade de exportação dos registros de um ou mais DataSets. Para tanto, na página inicial há um botão para ativar a exportação de registros de DataSets (Figura 23). Assim, basta selecionar os DataSets que se deseja exportar os registros e clicar em “Export All”. Um arquivo com os registros exportado será gerado e pode ser utilizado como copia de segurança ou para migra de um sistema a outro.


Figura 23 – Detalhe da página inicial destacando o botão para exportação de DataSets


Figura 23 – Detalhe da página inicial destacando o botão para exportação de DataSets


Importar Registros

O Repox também possui a funcionalidade de importar registros para um DataSet. Basta selecionar o DataSet a receber os registros e clicar em “Import Data Providers (Figura 23). Para que funcione, será preciso criar o provedor de dados e o DataSet antes do processo de importação. Os registros a serem importados devem estar no formato XML no esquema de metadados compatível com o DataSet.

Figura 24 – Detalhe da página inicial destacando a opção de importação de DataSets


Figura 24 – Detalhe da página inicial destacando a opção de importação de DataSets


Ao clicar na opção “ Import Data Providers” uma página PopUp será apresentada para que se possa selecionar o arquivo que contém os dados a serem importados (Figura 24). Ao clicar em “Browse” pode-se navegar pelo sistema de diretórios do seu computador ou sua rede, de forma a possibilitar a seleção do arquivo. Depois de selecionado o arquivo, basta clicar em “import”. Caso ocorra algum erro, o status do DataSet torna-se vermelho e deve-se olhar os logs do sistema para determinar o motivo da falha.[

Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado


Figura 25 – Detalhe da página PopUp para selecionar o arquivo a ser importado

Estatísticas

Para obter informações sobre a base de dados e os processos executados pelo REPOX, clique em Statistics no menu principal no topo da página inicial (Figura 25). Na página de estatísticas é apresentado informações sobre os provedores de dados, DataSets, coletas, quantidade de dados coletados e esquemas de metadados utilizados para a coleta, dando uma visão geral da base de dados. Somente os usuários administradores possuem permissão para acessar essa página.


Figura 26 – Detalhe da página inicial destacando a opção Statistics


Figura 26 – Detalhe da página inicial destacando a opção Statistics


Mapeadores

Para adicionar um arquivo de transformação XSLT (transformar um conjunto de dados a partir de seu esquema original para outra), clique no botão "MDR" no menu superior na página inicial. (Figura 26). Esta opção é útil para coletar metadados em um esquema e transformá-lo em outro. Da mesma forma que permite a correção do conteúdo de metadados, de forma a possibilitar a normalização. Os Mapeadores ou CrossWalk são realmente úteis em sistemas que coletam metadados de sistemas diferentes e precisam de ajustar os metados a uma determinada padronização.


Figura 27 – Detalhe do Menu principal destacando a opção MDR


Figura 27 – Detalhe do Menu principal destacando a opção MDR

Após clicar na opção MDR, uma abre-se um menu secundário que possibilita criar novas entradas para transformadas (Figura 27). Essas transformadas já devem ter sido criadas em um arquivo XML com formato XSLT, apenas para ser carregada nesse processo. Em muitos casos utilizam-se programas que ajudam nesse desenvolvimento de transformadas XML.

Figura 28 – Detalhe da página com a opção de criar uma nova transformada


Figura 28 – Detalhe da página com a opção de criar uma nova transformada


Ao clicar na opção New Transformation, um formulário será aberto para cadastramento da nova transformada (figura 28). Assim, basta preencher os campos que identificam a nova transformada e carregar o arquivo referente a nova transformada. O formulário possui os seguintes campos:

  • Identifier: Identificador da transformação.
  • Description: Descrição da transformação.
  • Sorce Format: Formato da fonte de transformação.
  • Version: Booleano para identificar uma nova versão.
  • Transformation File (XSL): Selecione o arquivo xslt.

Após o preenchimento de todos os campos, basta clicar em “save” para que a nova transformada esteja pronta para ser aplicada em algum provedor de dados.


Figura 29 – Detalhe da página para carregar uma transformada


Figura 29 – Detalhe da página para carregar uma transformada


Testando um provedor de dados

Uma funcionalidade útil ofertada pelo REPOX serve para testar um provedor de dados e pode ser utilizada para verificar erros. Para acessar basta clicar em “OAI-PMH Tests” no menu principal do REPOX, no topo da página (Figura 29). Essa funcionalidade permite executar todos os verbos ofertados pelo protocolo OAI-PMH em provedor de dados, via sua URL. Com isso pode-se verificar erros mais pontuais ou verificar disponibilidade de coleta. Entretanto, requer conhecimento sobre quais parâmetros cada verbo OAI-PMH requer.


Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados


Figura 30 – Menu principal do REPOX, destacando a opção de testar provedores de dados


Na página de teste de provedores de dados há três áreas distintas:

  • Parameters: nesta área devem-se informar os parâmetros requeridos para o testes, sendo que os parâmetros dependem do verbo, indicado na área de “Operations”, sendo que a URL do provedor de dados deve estar presente em todas as opções.
  • Operations: nesta área seleciona-se o verbo a ser executado no provedor de dados. Note que dependendo do verbo selecionado, determinado parâmetro deverá ser informado na área “Parameters”.
  • Response: a resposta dos da execução dos verbos será apresentada nesta área.


Figura 31 – Detalhe da página para testar provedores de dados


Figura 31 – Detalhe da página para testar provedores de dados


Referências

  • SAYÃO, L. F.; MARCONDES, C. H. O desafio da interoperabilidade e as novas perspectivas para as bibliotecas digitais. Transinformação, Campinas, v. 20, n. 2, p. 133-148, maio/ago., 2008.
  • SENA, N. K. Open Archives: caminho alternativo para a comunicação científica. Ciência da Informação, Brasília: v. 29, n. 3, p. 71-78, set./dez. 2000. Disponível em: <http://www.ibict.br/arquivosabertos/2930007.pdf>. Acesso em: 24 mar. 2014.
  • WEITZEL, S. R. Iniciativa de arquivos abertos como nova forma de comunicação científica., 2005 . In III Seminário Internacional Latino-Americano de Pesquisa em Comunicação, São Paulo (Brasil), 12-14 May 2005. (Unpublished) [Conference paper]
  • REPOX –
  • PEDROSA, G.; EDMUNDO, J. D4.4 – Full-text content delivered to Europeana: Appendix – REPOX in The European Library. 2012.