a linked open data architecture for contemporary historical archives

22
A linked open data architecture for contemporary historical archives Alexandre Rademaker 1 Suemi Higuchi 2 ario Augusto B. Oliveira 2 IBM Research and FGV/EMAp FGV/CPDOC September 25, 2013

Upload: alexandre-rademaker

Post on 11-May-2015

163 views

Category:

Education


0 download

DESCRIPTION

This presentation presents an architecture for historical archives maintenance based on Open Linked Data technologies and open source distributed development model and tools. The proposed architecture is being implemented for the archives of the Center for Teaching and Research in the Social Sciences and Contemporary History of Brazil (CPDOC) from Getulio Vargas Foundation (FGV).

TRANSCRIPT

Page 1: A linked open data architecture for contemporary historical archives

A linked open data architecture for contemporaryhistorical archives

Alexandre Rademaker1 Suemi Higuchi2

Dario Augusto B. Oliveira2

IBM Research and FGV/EMAp

FGV/CPDOC

September 25, 2013

Page 2: A linked open data architecture for contemporary historical archives

Getulio Vargas Foundation (FGV)

Brazilian higher education andresearch institution founded inDecember 20, 1944. It offers regularcourses of Economics, BusinessAdministration, Law, Social Sciencesand Applied Mathematics. Itsoriginal goal was to train people forthe country’s public- andprivate-sector management. It isconsidered by Foreign Policymagazine to be a top-5 policymakerthink-tank worldwide.

http://portal.fgv.br

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 2 / 22

Page 3: A linked open data architecture for contemporary historical archives

CPDOC - Center of Brazilian Contemporary History

I A major center for teaching and researching in the Social Sciencesand Contemporary History located in Rio de Janeiro. It holds:

I Personal Archives (Acessus) ≈ 200 archives, up to 1,8M docs or5.2M pages (700K digitalized), among text (handwritten andprinted), letters, memos, diaries, images and videos.

I Oral History Program (PHO) A huge set of testimonies (in audioand video) consisting of more than 2K interviews, which correspondto up to 6K hours of recordings. 90% in digital format. Only 10% istranscribed. Limit access, not online.

I Brazilian Historical Biographic Dictionary (DHBB) 7,5K entries,6,5K are of biographical and 1K related to institutions, events andconcepts of interest for the Brazilian history after 1930. Carefullyrevised entries by researchers. Few metadata.

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 3 / 22

Page 4: A linked open data architecture for contemporary historical archives

Currently Architecture

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 4 / 22

Page 5: A linked open data architecture for contemporary historical archives

Currently Relational DB

89 tables/classes and 660 columns/properties.

TIPO_ARQUIVO

PK CD_TIPO_ARQUIVO

NM_TIPO_ARQUIVO

PO_Pasta

PK IDPasta

TipoDescricaoDataCriacaoUltimaModificacao

FK1 IDUsuario

ENTREVISTADO

PK CD_ENTREVISTADO

NM_ENTREVISTADONM_SOBRENOME_ENTREVISTADONM_NACIONALIDADE_ENTREVISTADOCD_EST_CIVIL_ENTREVISTADONM_PROFISS_ENTREVISTADOCD_CPF_ENTREVISTADOCD_RG_ENTREVISTADOCD_ORG_EMISS_ENTREVISTADONM_LOGR_RESID_ENTREVISTADONM_BAIR_RESID_ENTREVISTADONM_CID_RESID_ENTREVISTADOSG_UF_RESID_ENTREVISTADONM_PAIS_RESID_ENTREVISTADOCD_CEP_RESID_ENTREVISTADOCD_TEL_RESID_ENTREVISTADOCD_CELULAR_RESID_ENTREVISTADOCD_EMAIL_RESID_ENTREVISTADONM_LOGR_COMERC_ENTREVISTADONM_BAIR_COMERC_ENTREVISTADONM_CID_COMERC_ENTREVISTADOSG_UF_COMERC_ENTREVISTADONM_PAIS_COMERC_ENTREVISTADOCD_CEP_COMERC_ENTREVISTADOCD_TEL_COMERC_ENTREVISTADOCD_CELULAR_COMERC_ENTREVISTADOCD_EMAIL_COMERC_ENTREVISTADONM_CONTATO_ENTREVISTADODS_QLFCAO_CONTATO_ENTREVISTADOCD_TEL_CONTATO_ENTREVISTADOCD_CELULAR_CONTATO_ENTREVISTADOCD_EMAIL_CONTATO_ENTREVISTADODT_NASC_ENTREVISTADO

FK2 NM_LOC_NASC_ENTREVISTADODT_FALEC_ENTREVISTADO

FK1 NM_LOCAL_FALEC_ENTREVISTADODS_ATIVIDADEDS_FORMACAODS_OBSERVACAONM_COMPLETO_ENTREVISTADO_PESQ

DH_VERBETE

PK CD_VRB

CD_TP_VRBIN_SIT_EDICAO_VRBNM_VRBNM_PESQ_VRBCD_VRB_ORIGINALDS_LEAD_VRBDS_OBS_VRBDT_ATU_VRBCD_LOGIN_USUSISDS_CONTEUDOcd_vtiNM_CONHECIDO_VRBIN_PUBLICADO

FK1 CD_UNIDADE_DOCUMENTAL

CONDICAO_ACESSO_ENTREVISTA

PK CD_CONDICAO_ACESSO_ENTREVISTA

FK2 CD_ENTREVISTAFK1 CD_CONDICAO_ACESSO

IN_LIBERADO

AC_RESPONSABILIDADE

PK CD_RES

DS_RESDT_ATU_RESCD_LOGIN_USUSIS

AC_MANUSCRITO

CD_MANCD_CLASSIFICACAO_MANNR_DOCUMENTOS_MANIN_DOCUMENTO_TIPO_MANNR_DOCUMENTOS_TIPO_MANDS_PERIODO_PRODUCAO_MANNR_ANO_PRODUCAO_DE_MANNR_ANO_PRODUCAO_ATE_MANCD_PDACD_MICROFILME_MANDS_RESUMO_MANDS_NOTAS_MANDT_ATU_MANCD_LOGIN_USUSIS

FK1 CD_UNIDADE_DOCUMENTAL_MANUSCRITO

AC_INSTITUICAO

PK CD_INS

U1 DS_INSDT_ATU_INSCD_LOGIN_USUSIS

AC_ARQUIVO_UNIDADE_DOCUMENTAL

PK,FK2 CD_UNIDADE_DOCUMENTALPK,FK1 CD_ARQUIVO

NR_SEQUENCIA

TIPO_SUMARIO

PK CD_TIPO_SUMARIO

DS_TIPO_SUMARIO

PALAVRA_NAO_CAPITALIZAVEL

PALAVRA

AC_TITULACAO

PK SG_TIT

DS_TITNR_ORDEM

AC_DOADOR_FUNDO

PK CD_DOADORPK,FK1 SG_FUN

AC_DESCRITOR_UNIDADE_DOCUMENTAL

PK,FK1 CD_UNIDADE_DOCUMENTALPK CD_DEL

AC_COLECAO_UNIDADE_DOCUMENTAL

PK CD_COLECAOPK,FK1 CD_UNIDADE_DOCUMENTAL

NR_SEQUENCIA

PARAMETRO_CONSULTA

NM_PARAMETROCD_NOTREE_PARAMETRODS_CONTEUDO_PARAMETROIN_REL_VISIVEL_PARAMETROIN_USU_COMUM_PARAMETRODS_EXPLICACAO_PARAMETRO

INSTITUICAO

PK CD_INSTITUICAO

U1 NM_RAZ_SOC_INSTITUICAONM_LOGR_INSTITUICAONM_BAIR_INSTITUICAONM_CID_INSTITUICAOSG_UF_INSTITUICAONM_PAIS_INSTITUICAOCD_CEP_INSTITUICAOCD_TEL_INSTITUICAOCD_FAX_INSTITUICAOCD_EMAIL_INSTITUICAO

DH_CARGO

PK CD_CARGO

DS_CARGODS_ABREV_CARGOCD_CARGO_TPDT_ATU_CARGOCD_LOGIN_USUSIS

AC_EXEMPLAR_PERIODICO

PK,FK2 CD_UNIDADE_DOCUMENTAL_EXEMPLAR

CD_EPRCD_PRICD_VOLUME_EPRCD_NUMERO_EPRDS_DATA_PUBLICACAO_EPRNR_ANO_PUBLICACAO_DE_EPRNR_ANO_PUBLICACAO_ATE_EPRDS_NOTAS_EPRDT_ATU_EPRCD_LOGIN_USUSIS

FK1 CD_UNIDADE_DOCUMENTAL_PERIODICO

AC_DOADOR

PK CD_DOADOR

NM_DOADORNM_CONJUGE_DOADS_PRINCIPAIS_ATIVIDADES_DOADS_NOTAS_DOAIN_CONSELHO_DOADORESDT_ATU_DOACD_LOGIN_USUSISCD_SERVICOCD_EXT_SERVCLIIN_FALECIDODIA_FALECIMENTOMES_FALECIMENTOANO_FALECIMENTO

AC_AUTORIDADE

PK CD_AUT

NM_AUTDT_ATU_AUTCD_LOGIN_USUSIS

AC_ARTIGO_PERIODICO

PK,FK2 CD_UNIDADE_DOCUMENTAL_ARTIGO

CD_APRCD_EPRDS_TITULO_APRCD_PAGINACAO_APRDS_NOTAS_APRDT_ATU_APRCD_LOGIN_USUSIS

FK1 CD_UNIDADE_DOCUMENTAL_EXEMPLAR

TIPO_SUPORTE

PK CD_TIPO_SUPORTE

NM_TIPO_SUPORTE

SISTEMA

PK CD_SISTEMA

NM_SISTEMA

PO_SolicitacaoLog

PK IDLog

TipoLogDataLogIDSolicitacaoDescricaoDataAberturaDataEncerramentoStatusResultadoOmitirUsuarioIDUsuarioExternoIDUsuarioResponsavelIDUDIDArquivoIDAnotacaoUDIDAnotacaoArquivo

PO_PastaArquivo

IDPastaIDUDIDArquivoIDPastaUnidadeDeDescricaoDataInclusao

AC_TITULAR_AREA

PK CD_TITARE

FK4 CD_TFUFK3 SG_TITFK1 CD_AACFK2 CD_INS

NM_LOCAL_TITARENR_ANO_FORMATURA_TITARE

AC_SERIE

PK CD_SER

FK1 SG_FUNDS_SERSG_SIGLA_SERDS_NOTAS_SERDT_LIBERACAO_SERDT_ATU_SERCD_LOGIN_USUSISIN_LIBERADA_CONSULTA

AC_LIVRO

PK CD_UNIDADE_DOCUMENTAL_LIVRO

CD_LIVCD_CLASSIFICACAO_LIVDS_TITULO_LIVNM_EDICAO_LIVNR_ANO_PUBLICACAO_DE_LIVNR_ANO_PUBLICACAO_ATE_LIVNM_LOCAL_PUBLICACAO_LIVNM_EDITOR_LIVNM_NUMERO_PAGINAS_LIVDS_VOLUME_LIVIN_ILUSTRACAO_LIVNM_COLECAO_SERIE_LIVDS_NOTAS_LIVDS_INFO_PATRIMONIAL_LIVDT_ATU_LIVCD_LOGIN_USUSIS

AC_CONDICAO_ACESSO

PK CD_CONDICAO_ACESSO

DS_CONDICAO_ACESSOSG_CONDICAO_ACESSO

UF

PK UF_SIGLA

UF_NOME

SITUACAO_ENTREVISTA

PK CD_SIT_ENTREVISTA

DS_SIT_ENTREVISTA

PO_AnotacaoArquivo

PK IDAnotacaoArquivo

IDArquivoDescricaoDataCriacaoUltimaModificacao

ARQUIVO_DIGITAL_DESCRITOR

PK,FK1 CD_ARQUIVO_DIGITALPK CD_DEL

AC_CONDICAO_ACESSO_FUNDO

PK CD_CONDICAO_ACESSO_FUNDO

FK1 CD_CONDICAO_ACESSOFK2 SG_FUNFK3 CD_TIPO_UNIDADE_DOCUMENTAL

DT_CONDICAO_ACESSO

AC_AUTORIDADE_NAO_ELEITA

PK CD_AUT_NAO_ELEITA

NM_AUT_NAO_ELEITAFK1 CD_AUT

DT_ATU_AUT_NAO_ELEITACD_LOGIN_USUSIS

USUARIO

PK CD_USUARIO

DS_LOGINFK1 CD_PERFIL_ACESSO

SUPORTE

PK CD_SUPORTE

FK1 CD_SESSAO_GRAVACAOFK3 CD_TIPO_SUPORTE

DS_SUPORTEFK2 CD_TECNICO

NR_QUANTIDADE_SUPORTE

PO_PastaUnidadeDeDescricao

PK IDPastaUnidadeDeDescricao

FK1 IDPastaIDUnidadeDeDescricaoOrigemDataInclusaoInCopia

PERFIL_ACESSO

PK,FK1 CD_PERFIL_ACESSO

NM_PERFIL_ACESSOCD_SISTEMA

ENTREVISTADOR

PK CD_ENTREVISTADOR

U1 NM_ENTREVISTADORNM_LOGR_ENTREVISTADORNM_BAIR_ENTREVISTADORNM_CID_ENTREVISTADORSG_UF_ENTREVISTADORNM_PAIS_ENTREVISTADORCD_CEP_ENTREVISTADORCD_TEL_ENTREVISTADORCD_CELULAR_ENTREVISTADORCD_EMAIL_ENTREVISTADOR

FK1 CD_INSTITUICAODS_FORMAC_ENTREVISTADORDS_OBS_ENTREVISTADOR

DH_CARGO_FUNCAO

PK CD_CARGO_FUNC

CD_CARGODS_CARGO_FUNC

BASEBUSCA

PK c4

c1c2c3c5c6c7c8c9c10c11c12c13c14c15

AC_UNIDADE_DOCUMENTAL

PK CD_UNIDADE_DOCUMENTAL

FK2 CD_TIPO_UNIDADE_DOCUMENTALCD_SER

FK1 CD_SSE

AC_AREA_ACADEMICA

PK CD_AAC

DS_AACDT_ATU_AACCD_LOGIN_USUSIS

PO_AnotacaoUD

PK IDAnotacaoUD

IDUDDescricaoDataCriacaoUltimaModificacao

AC_ATIVIDADE

PK CD_ATI

DS_ATIDT_ATU_ATICD_LOGIN_USUSIS

PO_UsuarioPerfil

FK1 IDPerfilFK2 IDUsuario

PERFIL_HISTORAL_CATALOGO

PK,FK1 CD_PESQUISAPK DT_PESQUISA_PHC

CD_ENTREVISTA

DH_CARGO_TIPO

PK CD_CARGO_TP

DS_CARGO_TP

AC_TITULAR_ATIVIDADE

PK CD_TITATI

FK3 CD_TFUFK1 CD_ATIFK2 CD_INS

NR_MES_INICIO_TITATINR_ANO_INICIO_TITATINR_MES_FIM_TITATINR_ANO_FIM_TITATI

AC_SUB_SERIE

PK CD_SSE

FK1 CD_SERDS_SSESG_SIGLA_SSEDT_ATU_SSECD_LOGIN_USUSIS

AC_DESCRITOR_ELEITO

PK CD_DEL

U1 DS_DELDT_ATU_DELCD_LOGIN_USUSISIN_EXCLUSIVO_ACCESSUSIN_EXCLUSIVO_ESTUDOS_HISTORICOSIN_EXCLUSIVO_ABHOIN_EXCLUSIVO_PRODUCAO_INTELECTUALDS_CONCEITUACAO_TERMO

AC_AUTORIDADE_UNIDADE_DOCUMENTAL

PK CD_AUTORIDADE_UNIDADE_DOCUMENTAL

FK3 CD_UNIDADE_DOCUMENTALFK1 CD_AUTFK2 CD_RES

TECNICO

PK CD_TECNICO

U1 NM_TECNICO

PROJETO

PK CD_PROJETO

U1 NM_TIT_PROJETODT_INIC_PROJETODT_FIM_PROJETODS_RESULTADO

FK2 CD_INSTITUICAO_CONVENIODS_COND_CONTRATO

FK1 CD_INSTITUICAO_FINANCDS_OBSERVACAO

LOCALIDADE

PK CD_LOCALIDADE

NM_CID_LOCALIDADESG_UF_LOCALIDADENM_PAIS_LOCALIDADE

DH_VERBETE_SUBTIPO

CD_VTIDS_VTIDS_SUB_VTI

DH_VERBETE_BIO_CARGO

PK CD_VBC

NR_DATA_ININR_DATA_FIMCD_VRBCD_CARGOSG_UFSG_PAISCD_CARGO_FUNCCD_INSCD_CID

AC_UNIDADE_DOCUMENTAL_FUNDO

PK,FK1 SG_FUNPK,FK2 CD_UNIDADE_DOCUMENTAL

AC_PERIODICO

PK,FK1 CD_UNIDADE_DOCUMENTAL_PERIODICO

CD_PRICD_CLASSIFICACAO_PRIDS_TITULO_PRINM_EDITOR_PRINM_LOCAL_PUBLICACAO_PRINM_PERIODICIDADE_PRINM_IDIOMA_PRIDS_NOTAS_PRIDT_ATU_PRICD_LOGIN_USUSIS

AC_FUNDO

PK SG_FUN

NM_FUNDT_DOACAO_FUNQT_VOLUME_ESTIMADO_FUNDS_LOCALIZACAO_FISICA_FUNDS_LOCALIZACAO_DIGITAL_FUNDS_CODIGO_MICROFILME_FUNDS_EQUIPE_FUNDS_HISTORICO_ACERVO_FUNDS_CONTEUDO_FUNDS_NOTAS_FUNDT_ATU_FUNCD_LOGIN_USUSISDT_ABERTURA_CONSULTA_FUN

AC_ARQUIVO

PK CD_ARQUIVO

NM_ARQUIVODS_CAMINHO_ARQUIVODS_CAMINHO_ARQUIVO_ICONDS_TEXTO_ARQUIVO

FK1 CD_TIPO_ARQUIVO

PO_Perfil

PK IDPerfil

NomeFK1 CodigoSistema

PERFIL_PESQUISA_DESCRITOR

PK,FK1 CD_PESQUISAPK CD_DNE

ENTREVISTA_ENTREVISTADO

PK,FK1 CD_ENTREVISTAPK,FK2 CD_ENTREVISTADO

DH_CIDADE

CD_CIDDS_CIDDT_ATU_CIDCD_LOGIN_USUSISCD_RBR

AC_USUARIO_FUNDO

PK,FK3 CD_USU_FUN

CD_USERID_USUFK4 CD_USUARIOFK1 SG_FUNFK2 CD_TIPO_UNIDADE_DOCUMENTAL

AC_DOADOR_ENDERECO

PK CD_DOADORPK CD_TIPO_ENDERECO

NM_LOGRADOURONR_NUMERONM_COMPLEMENTONM_BAIRRONM_CIDADE

FK2 UF_SIGLAFK1 PA_SIGLA

NR_CEPDT_ATU_DOECD_LOGIN_USUSIS

AC_AUDIOVISUAL

PK,FK1 CD_UNIDADE_DOCUMENTAL_AUDIOVISUAL

CD_AVICD_TDACD_CLASSIFICACAO_AVICD_PREFIXO_TITULO_AVIDS_TITULO_AVIDS_PERIODO_PRODUCAO_AVINR_ANO_PRODUCAO_DE_AVINR_ANO_PRODUCAO_ATE_AVICD_PDANR_DOCUMENTOS_AVIDS_FISICA_AVIDS_NOTAS_AVIDS_RESUMO_AVIDT_ATU_AVICD_LOGIN_USUSIS

TECNICO_ENTREVISTA

PK CD_TECNICO_ENTREVISTA

FK1 CD_ENTREVISTAFK3 CD_TECNICOFK2 CD_FUNCAO

PO_AreaAcademica

PK IDAreaAcademica

Nome

PERFIL_PESQUISA_ENTREVISTADO

PK,FK2 CD_PESQUISAPK,FK1 CD_ENTREVISTADO

LOCALIDADE_ENTREVISTA

PK,FK1 CD_ENTREVISTAPK,FK2 CD_LOCALIDADE

DOADOR

PK CD_DOADOR

U1 NM_DOADORDS_DOADOR

AC_CAPITULO_LIVRO

PK CD_UNIDADE_DOCUMENTAL_CAPITULO

CD_CLICD_LIVDS_TITULO_CLICD_PAGINACAO_CLIDS_NOTAS_CLIDT_ATU_CLICD_LOGIN_USUSIS

FK1 CD_UNIDADE_DOCUMENTAL_LIVRO

PO_Usuario

PK IDUsuario

TipoNomeEmailLoginFGVSenhaDataNascimentoSexo

FK2 IDGrauInstrucaoFK1 IDAreaAcademica

CidadeIDUFIDPaisFlagSpanDataCriacaoStatusGuidDataBloqueioFlagSpanArquivologiaFlagSpanCienciasSociaisFlagSpanHistoriaFlagSpanNewsletterCPDOC

PO_Solicitacao

PK IDSolicitacao

DescricaoDataAberturaDataEncerramentoStatusResultadoOmitirUsuario

FK1 IDUsuarioExternoFK2 IDUsuarioResponsavel

IDUDIDArquivoIDAnotacaoUDIDAnotacaoArquivo

PO_GrauInstrucao

PK IDGrauInstrucao

Nome

ENTREVISTA_ENTREVISTADOR

PK,FK1 CD_ENTREVISTAPK,FK2 CD_ENTREVISTADOR

AC_TIPO_ARQUIVO

PK CD_TIPO_ARQUIVO

NM_TIPO_ARQUIVO

AC_ARQUIVO_COLECAO

PK,FK1 CD_ARQUIVOPK,FK2 CD_COLECAO

NR_SEQUENCIA

PO_Mensagem

PK IDMensagem

TextoDataCriacao

FK1 IDSolicitacaoIDUsuario

PERFIL_PESQUISA_USUARIO

PK CD_PESQUISA

CD_USUARIODT_PESQUISA_PPUCD_TIPO_CONSULTACD_TIPO_PESQ_DEL LOG_OPERACAO

PK Codigo

OperacaoTabelaDadosData

ENTREVISTA_PROJETO

PK,FK1 CD_ENTREVISTAPK,FK2 CD_PROJETO

ENTREVISTA

PK CD_ENTREVISTA

DS_OBJ_ENTREVISTAU1 NM_TIT_ENTREVISTA

IN_TIP_ENTREVISTACD_DOADORDT_DOACAO_ENTREVISTADT_LIBERACAO_ENTREVISTADS_OBSERVACAOIN_ARQ_DOC_ENTREVISTACD_SIT_ENTREVISTADS_REF_BIBLIOGRAFICADS_OBSERVACAO_FINALQT_DISQ_TRANSC_ENTREVISTANM_ARQ_TRANSC_ENTREVISTACD_DOC_TRANSC_ENTREVISTANU_PAGS_TRANSC_ENTREVISTADS_RESTRICOES_ACESSODS_JUSTIFICATIVANU_DISQ_TRANSC_ENTREVISTANM_PASTA_TRANSC_ENTREVISTAIN_FICHA_TRANSC_ENTREVISTAIN_FL_ROSTO_TRANSC_ENTREVISTAIN_PROC_ENTREVISTANU_DISQ_AUDIO_ENTREVISTANM_PASTA_AUDIO_ENTREVISTAIN_FICHA_AUDIO_ENTREVISTAIN_FL_ROSTO_AUDIO_ENTREVISTANU_DISQ_AVISUAL_ENTREVISTANM_PASTA_AVISUAL_ENTREVISTAIN_FICHA_AVISUAL_ENTREVISTAIN_FL_ROSTO_AVISUAL_ENTREVISTADT_PREENCH_REL_ENTREVISTADS_CONTATO_ENTREVISTADS_LOC_ENTREVISTADS_ANDAMENTO_ENTREVISTADS_MUDANCA_ENTREVISTADS_INTERRUPCAO_ENTREVISTADS_PESSOA_PRESENTEDS_COMENT_CESSAO_ENTREVISTADS_OUTRAS_OBSERVACOESDT_ASSINATURA_CPDOC_ENTREVISTACD_ASSINADO_CPDOC_ENTREVISTADS_HERDEIRO_CPDOC_ENTREVISTADS_RESTRICAO_CPDOC_ENTREVISTADS_ENCAM_CPDOC_ENTREVISTADS_COND_USO_CPDOC_ENTREVISTADS_OBS_GRAVACAODS_RESUMO_FICHA_TECNM_TIT_ENTREVISTA_PESQDS_TEXTO_PUBLICACAO_CITACAODS_SUMARIOCD_TRANSC_ENTREVISTA

FK1 CD_UNIDADE_DOCUMENTALIN_COBERTURA

DH_GOVERNO

PK CD_GOV

DS_GOVNR_DATA_INIC_GOVNR_DATA_FIM_GOVDT_ATU_GOVCD_LOGIN_USUSIS

AC_TITULAR_FUNDO

PK CD_TFU

NM_TFUFK1 SG_FUN

NR_NASCIMENTO_DIA_TFUNR_NASCIMENTO_MES_TFUNR_NASCIMENTO_ANO_TFUNM_PAI_TFUNM_MAE_TFUNM_CONJUGE_TFUNR_FALECIMENTO_DIA_TFUNR_FALECIMENTO_MES_TFUNR_FALECIMENTO_ANO_TFUDS_OUTRAS_ATIVIDADES_TFUDS_NOTAS_TFUDT_ATU_TFUCD_LOGIN_USUSIS

FK2 CD_LOCALIDADE_NASCIMENTOFK3 CD_LOCALIDADE_FALECIMENTO

AC_LOCALIDADE

PK CD_LOCALIDADE

NM_LOCALIDADEFK1 CD_LOCALIDADE_PAIFK2 CD_TIPO_LOCALIDADE

TECNICO_PROJETO

PK,FK1 CD_PROJETOPK,FK2 CD_TECNICO

AJUDA

PK CD_AJUDA

DS_TEXTO_AJUDAFK1 CD_FUNCIONALIDADE

AC_TIPO_LOCALIDADE

PK CD_TIPO_LOCALIDADE

NM_TIPO_LOCALIDADE

AC_DESCRITOR_NAO_ELEITO

PK CD_DNE

U1 DS_DNECD_DELDT_ATU_DNECD_LOGIN_USUSISIN_DNE_DEL

AC_ARQUIVO_FUNDO

PK,FK1 CD_ARQUIVOPK,FK2 SG_FUN

NR_SEQUENCIA

TEMA_ENTREVISTA

PK,FK1 CD_ENTREVISTAPK CD_DEL

SESSAO_GRAVACAO

PK CD_SESSAO_GRAVACAO

FK1 CD_ENTREVISTANU_SESS_GRAVDT_SESS_GRAVQT_HR_SESS_GRAVQT_MIN_SESS_GRAVDS_LOCALDS_OBSERVACOES

FUNCAO

PK CD_FUNCAO

NM_FUNCAO

ENTREVISTA_SUMARIO

PK CD_ENTREVISTA_SUMARIO

FK1 CD_ENTREVISTADS_SUMARIO

FK2 CD_TIPO_SUMARIO

DH_VERBETE_IMPORTADO

FK1 CD_VRBNomeConteudoInAntigo

CONDICAO_ACESSO

PK CD_CONDICAO_ACESSO

DS_CONDICAO_ACESSODS_CONDICAO_ACESSO_EXIBICAO

AC_TIPO_UNIDADE_DOCUMENTAL

PK CD_TIPO_UNIDADE_DOCUMENTAL

NM_TIPO_UNIDADE_DOCUMENTALSG_TIPO_UNIDADE_DOCUMENTAL

FK1 CD_TIPO_UNIDADE_DOCUMENTAL_PAINR_SEQUENCIA_EXIBICAO

PERMISSAO

PK CD_PERMISSAO

FK2 CD_PERFIL_ACESSOFK1 CD_FUNCIONALIDADE

IN_ACESSOIN_INCLUSAOIN_ALTERACAOIN_EXCLUSAO

PAIS

PK PA_SIGLA

PA_NOMEPA_NOME_INGLES

FUNCIONALIDADE

PK CD_FUNCIONALIDADE

NM_FUNCIONALIDADESG_FUNCIONALIDADE

FK1 CD_SISTEMA

ARQUIVO_DIGITAL

PK CD_ARQUIVO_DIGITAL

DS_CAMINHO_ARQUIVOFK3 CD_TIPO_ARQUIVO

IN_LIBERADO_CONSULTADS_METADADOSDS_LEGENDA

FK1 CD_ENTREVISTADS_URL_ARQUIVO

FK2 CD_SESSAO_GRAVACAO

AC_PRECISAO_DATA

PK CD_PDA

DS_PDA

AC_LOCALIDADE_UNIDADE_DOCUMENTAL

PK,FK2 CD_UNIDADE_DOCUMENTALPK,FK1 CD_LOCALIDADE

AC_COLECAO

PK CD_COLECAO

NM_COLECAO

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 5 / 22

Page 6: A linked open data architecture for contemporary historical archives

Problems

I Currently architecture is hard and costly to maintain and improvegiven the relational model nature and systems;

I innovative initiatives are usually postponed;

I The data is available online but on the “deep web”;

I CPDOC’s do not adopt any standard data model or vocab: (1) inhibitinteroperability with other open resources; and (2) hardly useful forpeople outside CPDOC.

I data files (audio, videos and images) scattered in different file servers,DB only stores metadata and file paths (loose coupling).

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 6 / 22

Page 7: A linked open data architecture for contemporary historical archives

Some inconsistencies

“verbete” is a dictionary entry. “bio cargo” is a position (“cargo”) that the

described person had during a specific time during which he/she carried on a

particular assignment (“funcao”). Controled lists but no standards! Double

relation between “bio cargo” and “cargo”.

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 7 / 22

Page 8: A linked open data architecture for contemporary historical archives

Inconsistencies are not always straightforward to fix

DELETE {

?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO ?cargo

}

INSERT {

graph <http://cpdoc.fgv.br/sys/update1/> {

?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO_FUNC _:funcao .

_:funcao rdf:type cpdoc:dbo_DH_CARGO_FUNCAO ;

cpdoc:dbo_DH_CARGO_FUNCAO_CD_CARGO ?cargo .

}

}

WHERE {

?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO ?cargo .

filter not exists {

?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO_FUNC ?cf .

?cf cpdoc:dbo_DH_CARGO_FUNCAO_CD_CARGO ?cargo .

}

}

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 8 / 22

Page 9: A linked open data architecture for contemporary historical archives

. . . when we recognize the battleagainst chaos, mess, and unmasteredcomplexity as one of computingscience’s major callings, we mustadmit that “Beauty is our Business”.(Edsger W. Dijkstra)

Some beautiful arguments using mathematical induction. http: // goo. gl/ KQ9j7Q .

Page 10: A linked open data architecture for contemporary historical archives

The Long Run Project

I Joint project between CPDOC and EMAp (Mathematical School);

I Enrich the structure (semantics) of CPDOC data;

I Open and expose CPDOC’s data and architecture making it moremaintainable and dynamic;

I Uniform and integrated data treatment (standards and interlinksbetween collections).

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 10 / 22

Page 11: A linked open data architecture for contemporary historical archives

Motivations

I Open Linked Data Initiative Principals;

I Distributed open source development model/tools (collaborative datamaintenance and creation);

I From data owner to data curator;

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 11 / 22

Page 12: A linked open data architecture for contemporary historical archives

The migration process(1) D2RQ was extracted RDF from relational; (2) enrichment of data semantics

(next slides); (3) DHBB entries to simple markdown files with YAML headers; (4)

PHO and Accessus collections are moved to DRMS (standards vocab, access

control, faced search, long-term preservation, OAI-PMH support etc.

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 12 / 22

Page 13: A linked open data architecture for contemporary historical archives

The desired architecture

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 13 / 22

Page 14: A linked open data architecture for contemporary historical archives

Improving semantics1-1 with original relational DB. The connection of technician and interview is

parameterized by different roles, the donator, interviewer and interviewed of an

interview are modeled each one in a specific table. In this case interviewed,

interviewer, donator and technician are all people (“ad hoc” modeling).

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 14 / 22

Page 15: A linked open data architecture for contemporary historical archives

Improving semantics

prov centric but uses skos, dc, foaf, bio and geo, frbr etc. some classes can be

subclasses of standard classes, Interview, some classes can be replaced by

standard classes, localidade.

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 15 / 22

Page 16: A linked open data architecture for contemporary historical archives

Conclusions

I Challenge 1: convince CPDOC researchers to make the transition todata owners to curators.

I Challenge 2: adapt researchers to new technologies (VC, text editors,scripts?, distributed workflow etc)

I Model refinements (corrections, transformations by alignments) canbe not straightforward.

I Still a lot to be done. For instance...

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 16 / 22

Page 17: A linked open data architecture for contemporary historical archives

Other Research Opportunities

I Natural language processing: processing the DHBB entries todiscover relations between entries and with other linked data andresources. DHBB for NLP and vice versa!

I Ontology alignmnent algorithms for (semi-)automated the modeltransformations.

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 17 / 22

Page 18: A linked open data architecture for contemporary historical archives

Natural Language ProcessingI Manually discovered ≈ 50 links to dbpedia (Presidents of Brazil,

presidents of the Senate, political parties etc.)I NLP and text mining of DHBB entries: (1) proper names; (2) word

sense disambiguation using the openWordnet-PT (lexical resource);and (3) named entity recognition and creation of links betweenDHBB entries.

I 133,036 proper names identified (some few mistakes). Potenciallyentities (people, locations, organizations etc)

I Use grammars, lexical resources, formal ontologies, and logical toolsto reason about knowledge obtained from processing text inPortuguese (Computational Semantics: KB, KR, and ATP);

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 18 / 22

Page 19: A linked open data architecture for contemporary historical archives

Natural Language Processing

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 19 / 22

Page 20: A linked open data architecture for contemporary historical archives

Audio and Transcriptions

Sinal processing to (semi-) automatic produce transcriptions, alignmentwith already available transcriptions and audio segmentation(interviewer/inverviwed);

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 20 / 22

Page 21: A linked open data architecture for contemporary historical archives

Faces recognition and identification

Image processing techniques to face recognition in photos collections.

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 21 / 22

Page 22: A linked open data architecture for contemporary historical archives

Obrigado!

S: (v) thank, give thanks (express gratitude or show appreciation to)

(=>

(and

(instance ?THANK Thanking)

(agent ?THANK ?AGENT)

(patient ?THANK ?THING)

(destination ?THANK ?PERSON))

(and

(instance ?PERSON Human)

(or

(holdsDuring

(WhenFn ?THANK)

(wants ?AGENT ?THING))

(holdsDuring

(WhenFn ?THANK)

(desires ?AGENT ?THING)))))

SUMO Ontology, http://www.ontologyportal.org

A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 22 / 22