document decipherment-restoration: strip-shredded document reconstruction based on color

7
Abstract— The strip-shredded document reconstruction is an often problem in questioned document examination. The proposed method uses the color as feature matching and then computes the Nearest-Neighbor algorithm using a distance matrix to carry out the reconstruction. The results reported in this paper achieved 97.68% - RGB and 98.53% - HSV models. These results take into account a two hundred documents database and demonstrate that color-matching-based method produces interesting results for the problem of document reconstruction and can be of interest to the forensic document examiners. Keywords— Document Reconstruction, Strip-shredded Documents, Feature Extraction, Color Matching, Euclidean Distance. I. INTRODUÇÃO DOCUMENTOSCOPIA, é a parte da criminalística que estuda os documentos, sendo dividida nas seguintes áreas: grafoscopia, mecanografia, documentos questionados, exame de moedas metálicas e de papel-moeda, exame de selos, exame de papéis, exame de tintas, exame de instrumentos escreventes e outros exames relacionados. Mais especificamente, a Análise de Documentos Questionados envolve a datagem de documentos, detecção de documentos falsos, grafoscopia, restauração e decifração de documentos (document decipherment-restoration) e, ainda, identificação das técnicas de impressão e reprodução de documentos. Assim, a documentoscopia ocupa-se de estudos que permite verificar se os documentos são autênticos e, em caso contrário, determinar a sua autoria [1]. Entende-se por documento ou prova documental, como o próprio nome indica, um documento (público ou particular) que esteja sob questionamento ou que suscite dúvidas sobre sua autenticidade ou veracidade das informações nele contidas. Neste sentido, a reconstrução de documentos mutilados, muita vezes, é a única maneira de se recuperar a informação contida em documentos questionados ou trazidos aos Autos em estado de degradação [2]. Sabe-se, portanto, que os processos de reconstrução de documentos mutilados possuem um elevado grau de complexidade, sem considerar que muitos documentos são intencionalmente destruídos com a finalidade de ocultar informações que podem ser usadas como prova, dificultando, assim, a identificação ou interpretação de seu M. A. O. Marques, Faculdade Cenecista de Campo Largo, Campo Largo, Paraná, Brasil, [email protected] C. O. A. Freitas, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba, Paraná, Brasil, [email protected] conteúdo ou, ainda, escondendo ou disfarçando a verdadeira identidade do seu autor [2]. Tradicionalmente, a reconstrução de documentos mutilados pode ser realizada através de dois processos. O primeiro, manualmente, no qual as partes são analisadas e encaixadas tal qual em um quebra-cabeça. Este processo além de demorado pode ser considerado um processo destrutivo, pois a manipulação dos fragmentos pode acarretar perdas de material (alteração de propriedades físicas e químicas dos documentos) ou perda de informações (impressões digitais contidas nos documentos). O segundo processo consiste na reconstrução automática ou semi-automática através de procedimento computacional que utiliza imagens digitais dos fragmentos. Qualquer que seja o processo aplicado, deve-se ter em mente a conservação física dos fragmentos, pois em alguns casos, o estado de conservação pode conduzir a uma análise pericial não conclusiva [2]. De um modo geral, a dificuldade na reconstrução de documentos mutilados está relacionada com os seguintes fatores: complexidade do próprio documento a ser reconstruído, processo de mutilação sofrido pelo documento, quantidade de fragmentos e forma dos fragmentos. Deste modo, os documentos podem sofrer diversas mutilações durante sua vida útil podendo ser naturais ou involuntárias e intencionais ou voluntárias [2]. As mutilações naturais estão relacionadas com o aspecto da conservação do documento, isso ocorre quando o documento pode sofrer influência de fatores como umidade, temperatura, poeira, poluição, fungos, insetos, microorganismos, catástrofes (enchentes, incêndios), entre outros. as mutilações intencionais ou voluntárias são efetuadas por pessoa com ajuda de objetos como tesoura, régua, estilete, máquinas fragmentadoras, ou apenas utilizando as mãos para rasgar o documento. Tais mutilações têm por objetivo destruir ou inutilizar documentos que podem ser utilizados como prova em processos judiciais. A forma dos fragmentos, portanto, é decorrente do uso ou não de objetos, resultando em fragmentos regulares (máquinas fragmentadoras) ou irregulares (rasgado). A quantidade de fragmentos, por sua vez, depende do tipo de máquina fragmentadora ou da quantidade de vezes que a pessoa rasga o documento. Sendo assim, a identificação dos fragmentos parceiros, seja em reconstrução manual ou por computador, é um desafio. A aplicação de métodos computacionais no problema em questão tem por objetivo fornecer recursos que permitem a reconstrução estrutural de um documento para auxiliar ou, M. A. O. Marques and C. O. A. Freitas Document Decipherment-restoration: Strip- shredded Document Reconstruction Based on Color A IEEE LATIN AMERICA TRANSACTIONS, VOL. 11, NO. 6, DECEMBER 2013 1359

Upload: cinthia

Post on 10-Feb-2017

223 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

Abstract— The strip-shredded document reconstruction is an often problem in questioned document examination. The proposed method uses the color as feature matching and then computes the Nearest-Neighbor algorithm using a distance matrix to carry out the reconstruction. The results reported in this paper achieved 97.68% - RGB and 98.53% - HSV models. These results take into account a two hundred documents database and demonstrate that color-matching-based method produces interesting results for the problem of document reconstruction and can be of interest to the forensic document examiners.

Keywords— Document Reconstruction, Strip-shredded Documents, Feature Extraction, Color Matching, Euclidean Distance.

I. INTRODUÇÃO DOCUMENTOSCOPIA, é a parte da criminalística que estuda os documentos, sendo dividida nas seguintes

áreas: grafoscopia, mecanografia, documentos questionados, exame de moedas metálicas e de papel-moeda, exame de selos, exame de papéis, exame de tintas, exame de instrumentos escreventes e outros exames relacionados. Mais especificamente, a Análise de Documentos Questionados envolve a datagem de documentos, detecção de documentos falsos, grafoscopia, restauração e decifração de documentos (document decipherment-restoration) e, ainda, identificação das técnicas de impressão e reprodução de documentos.

Assim, a documentoscopia ocupa-se de estudos que permite verificar se os documentos são autênticos e, em caso contrário, determinar a sua autoria [1]. Entende-se por documento ou prova documental, como o próprio nome indica, um documento (público ou particular) que esteja sob questionamento ou que suscite dúvidas sobre sua autenticidade ou veracidade das informações nele contidas.

Neste sentido, a reconstrução de documentos mutilados, muita vezes, é a única maneira de se recuperar a informação contida em documentos questionados ou trazidos aos Autos em estado de degradação [2]. Sabe-se, portanto, que os processos de reconstrução de documentos mutilados possuem um elevado grau de complexidade, sem considerar que muitos documentos são intencionalmente destruídos com a finalidade de ocultar informações que podem ser usadas como prova, dificultando, assim, a identificação ou interpretação de seu

M. A. O. Marques, Faculdade Cenecista de Campo Largo, Campo Largo,

Paraná, Brasil, [email protected] C. O. A. Freitas, Pontifícia Universidade Católica do Paraná (PUCPR),

Curitiba, Paraná, Brasil, [email protected]

conteúdo ou, ainda, escondendo ou disfarçando a verdadeira identidade do seu autor [2].

Tradicionalmente, a reconstrução de documentos mutilados pode ser realizada através de dois processos. O primeiro, manualmente, no qual as partes são analisadas e encaixadas tal qual em um quebra-cabeça. Este processo além de demorado pode ser considerado um processo destrutivo, pois a manipulação dos fragmentos pode acarretar perdas de material (alteração de propriedades físicas e químicas dos documentos) ou perda de informações (impressões digitais contidas nos documentos). O segundo processo consiste na reconstrução automática ou semi-automática através de procedimento computacional que utiliza imagens digitais dos fragmentos. Qualquer que seja o processo aplicado, deve-se ter em mente a conservação física dos fragmentos, pois em alguns casos, o estado de conservação pode conduzir a uma análise pericial não conclusiva [2].

De um modo geral, a dificuldade na reconstrução de documentos mutilados está relacionada com os seguintes fatores: complexidade do próprio documento a ser reconstruído, processo de mutilação sofrido pelo documento, quantidade de fragmentos e forma dos fragmentos.

Deste modo, os documentos podem sofrer diversas mutilações durante sua vida útil podendo ser naturais ou involuntárias e intencionais ou voluntárias [2]. As mutilações naturais estão relacionadas com o aspecto da conservação do documento, isso ocorre quando o documento pode sofrer influência de fatores como umidade, temperatura, poeira, poluição, fungos, insetos, microorganismos, catástrofes (enchentes, incêndios), entre outros. Já as mutilações intencionais ou voluntárias são efetuadas por pessoa com ajuda de objetos como tesoura, régua, estilete, máquinas fragmentadoras, ou apenas utilizando as mãos para rasgar o documento. Tais mutilações têm por objetivo destruir ou inutilizar documentos que podem ser utilizados como prova em processos judiciais.

A forma dos fragmentos, portanto, é decorrente do uso ou não de objetos, resultando em fragmentos regulares (máquinas fragmentadoras) ou irregulares (rasgado). A quantidade de fragmentos, por sua vez, depende do tipo de máquina fragmentadora ou da quantidade de vezes que a pessoa rasga o documento. Sendo assim, a identificação dos fragmentos parceiros, seja em reconstrução manual ou por computador, é um desafio.

A aplicação de métodos computacionais no problema em questão tem por objetivo fornecer recursos que permitem a reconstrução estrutural de um documento para auxiliar ou,

M. A. O. Marques and C. O. A. Freitas

Document Decipherment-restoration: Strip-shredded Document Reconstruction Based on

Color

A

IEEE LATIN AMERICA TRANSACTIONS, VOL. 11, NO. 6, DECEMBER 2013 1359

Page 2: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

muitas vezes, viabilizar a análise pericial do mesmo, sem provocar modificações ou perdas de informação do documento original. Estes procedimentos propõem métodos não destrutivos para a reconstrução digital de documentos, e ainda, visam à redução do tempo consumido por essa atividade.

Deste modo, o presente trabalho descreve um sistema que considera documentos em papel fragmentados de maneira regular intencionalmente através de máquina fragmentadora, gerando fragmentos do tipo “spaghetti” (Fig. 1). A base de dados de imagens digitais dos documentos e fragmentos permitiu avaliar o método proposto considerando-se como primitiva a cor dos pixels das bordas (esquerda e direita) de cada fragmento representada através de dois modelos de cores: RGB e HSV. Na sequência aplica-se o algoritmo de Vizinhos-Mais-Próximos (Nearest-Neighbor Algorithm) [3] com base na distância Euclidiana e em uma matriz de distâncias para encontrar os fragmentos parceiros. Este artigo tem por base os resultados apresentados por Marques e Freitas [4] de modo a detalhar os experimentos realizados, bem como, apresentar uma análise de erros do método proposto.

O artigo está organizado em 5 Seções. A Seção 2 apresenta os trabalhos relevantes e relacionados com o tema. Na Seção 3 descreve-se a base de dados e o método proposto. A Seção 4 apresenta os resultados experimentais. Finalmente, a Seção 5 discute alguns problemas, apresentando conclusões e trabalhos futuros.

Figura 1. Documento mutilado: a) original e b) fragmentos tipo “spaghetti”.

II. TRABALHOS RELACIONADOS Pouco são os trabalhos existentes na literatura sobre

reconstrução de documentos. Porém a literatura trata o problema em função da forma do fragmento, ou seja, se o fragmento é irregular ou regular. A abordagem para fragmentos irregulares tem por base a forma do fragmento. Isto já não pode ocorrer na reconstrução de fragmentos regulares, pois a forma em nada pode ajudar uma vez que todos os fragmentos são iguais (de mesmo tamanho e forma). Assim, lança-se mão de informações sobre o conteúdo dos fragmentos.

O trabalho realizado por Leitão [5] descreve um método para encontrar pares adjacentes de objetos cerâmicos quebrados. O método consiste numa representação gráfica de

cada fragmento através de curvas codificadas. A desvantagem do método proposto é que fragmentos muito diferentes na forma podem resultar em curvas muito semelhantes. Para validar seu método a autora realizou dois experimentos: a) 20 fragmentos de papel, sendo que o algoritmo devolveu 28 prováveis parceiros que após análise resultaram 11 verdadeiros, dentre os 15 pares considerados reconhecíveis pelos parâmetros utilizados nos testes. Os outros 17 foram considerados falsos positivos; b) 5 ladrilhos retangulares de cerâmica não vitrificada, com um total de 112 fragmentos. Para o segundo experimento foram considerados diferentes parâmetros de comprimento mínimo igual a: 250 pixels e sem limitação com refinamento de 2 pixels. Assim, para controle do comprimento mínimo o algoritmo encontrou 22 pares de candidatos, sendo 3 falsos positivos. Para a segunda opção, o algoritmo selecionou 166.626 pares candidatos que após refinamento foram reduzidos a 277 pares candidatos. Destes, dos 60 primeiros pares retornados continham 30 falsos positivos, sendo que nos 30 pares seguintes existiam 21 falsos verdadeiros. A autora concluiu que os resultados não são expressivos, mas apresentam potencial para pesquisa.

Outro trabalho para fragmentos de forma irregular foi proposto por Justino et al. [6] no qual foi utilizado o método de aproximação poligonal para encontrar os fragmentos parceiros. O trabalho relata a criação de uma base de dados de documentos mutilados (rasgados) contendo 100 diferentes tipos de documentos (manuscritos, impressos, imagens e gráficos). O método proposto aplica o algoritmo de Douglas–Peucker (DP), o qual permite a simplificação de uma polilinha e é utilizado amplamente em problemas de computação gráfica e sistemas de informação geográfica. Os resultados obtidos permitiram atingir 60% de taxa de acerto com documentos contendo até 15 fragmentos de no mínimo 1cm x 1cm e no máximo de 5cm x 5cm. Neste mesmo sentido, o trabalho de Pimenta et al. [7] alcançou um ganho de 24% comparado com o método proposto por [6] e, ainda, reduzir a taxa de erro em 4% e de falsos candidatos em 20%. Neste trabalho os autores aplicam uma modificação do algoritmo de Prim, o qual tem por base a programação dinâmica, permitindo melhorar a seleção dos fragmentos parceiros.

Com relação aos documentos mutilados de forma regular são encontrados na literatura alguns trabalhos já realizados. Deve-se considerar que os fragmentos de documentos mutilados de forma regular podem ser classificados em 3 categorias: retangular de mesma dimensão, tipo “spaghett” – Fig. 1; retangular com cortes aleatórios na horizontal – Fig. 2a e circular (“confete”), utilizado para destruição de cheques bancários – Fig. 2b. O formato “confete” não faz parte do escopo do presente trabalho, porém entende-se que a complexidade do formato exige a aplicação de outras técnicas para análise tanto da forma quanto do conteúdo do fragmento.

O artigo apresentado por Ukovich [8] descreve um método para reconstrução de documentos em forma regular, tipo “spaghett”, com base nos descritores MPEG-7. Os descritores utilizados foram os seguintes: 3 descritores de cor (HSV, HMMD e YCrCb), 2 descritores de textura (Edge Histogram e

1360 IEEE LATIN AMERICA TRANSACTIONS, VOL. 11, NO. 6, DECEMBER 2013

Page 3: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

Homogeneous Texture) e, ainda, 2 descritores de forma (contorno e região). A base de dados utilizada contém 9 documentos oficiais (relatório, mapas, diagrama de blocos, manuais, folhetos), totalizando 48 imagens. Os resultados obtidos demonstram que as primitivas usadas, de um modo geral em sistemas de recuperação de imagens tendo por base o conteúdo, podem ser utilizadas para reconstrução de documentos, especialmente os descritores de cor. Por outro lado, os descritores de texturas não geraram os resultados esperados, necessitando que outros descritores sejam testados e analisados. E, ainda, que os descritores de forma somente são úteis nos casos em que os fragmentos possuem uma forte curvatura na borda.

Figura 2. Documentos mutilados de forma regular: a) cortes aleatórios na horizontal e b) tipo “confete” [6-7].

O trabalho desenvolvido por Skeoch [9] apresenta um

método para a reconstrução digital de documentos mutilados em formato regular por meio de algoritmo de busca heurística. O processo de reconstrução desenvolvido inicia com a aquisição dos fragmentos usando um scanner e o tratamento das imagens, seguido pela extração da cor das bordas, pela combinação dos pares de pixels das bordas utilizando métricas de comparação e por fim a reconstrução dos fragmentos é realizada através de algoritmos genéticos. Embora este sistema apresente bons resultados em várias imagens, a conclusão final foi que o sistema não produz os resultados corretos, isso devido a uma má adequação da função de estimação relacionada com o algoritmo genético e, também, por parte do processo de extração de primitivas. Por outro lado, o algoritmo genético se mostrou confiável para imagens fragmentadas pelo computador. Apesar disto, alguns aspectos do sistema funcionam bem, podendo ser claramente visto que, quando a cor está presente, uma boa solução parcial pode ser alcançada. No entanto, o desempenho com imagens que contém texto é geralmente baixo. Várias medidas foram contempladas por este trabalho, sendo que para calcular a distância entre os vetores de primitivas das bordas dos fragmentos, foram avaliados os seguintes métodos: Distância Euclidiana, Manhattan, Chebychev, Minkowski, Mahalanobis, Canberra, Cosseno e NSR Euclideano. Na maioria das imagens, a avaliação da autora é que o sistema proposto funciona bem tanto para o modelo de cor RGB quanto para o modelo HSV, independentemente do método de cálculo de distância. A base de dados é composta por somente 15 documentos com no máximo 27 fragmentos. Foram realizados experimentos com os fragmentos de dois documentos misturados. Neste caso, o sistema não conseguiu ao menos separar os fragmentos pertencentes a cada um dos dois documentos analisados.

Deve-se ainda considerar que existem empresas que ofertam o serviço de reconstrução de documentos mutilados tal qual a ChurchStreet Technology, Inc. [10]. Esta empresa não revela as técnicas ou métodos empregados na reconstrução mas afirma que os sistemas funcionam com base em 3 etapas: digitalização e conservação dos fragmentos em imagens digitais; catalogação e busca das características gráficas no contexto do fragmento; reconstrução e colocação dos fragmentos na ordem correta. Neste caso, a empresa solicita que os interessados enviem os fragmentos para seu laboratório e depois eles retornam o resultado através de arquivos magnéticos. As desvantagens do serviço ofertado são que a reconstrução somente é realizada se todos os fragmentos do documento forem enviados, bem como, a empresa não realiza a reconstrução se no pacote enviado houverem fragmentos de vários documentos misturados, pois o sistema não efetua a separação de fragmentos pertencentes a documentos distintos. Da mesma forma a empresa Unshredder – Shredded Document Reconstruction System [12] oferece um software para reconstrução de documentos mutilados, sejam estes fragmentos verticais, horizontais ou provenientes de documentos que foram rasgados. Neste caso, também, a empresa não indica as técnicas utilizadas. Além disto, em ambos os casos, seja no serviço prestado ou na possibilidade de aquisição do software, nenhuma empresa fornece as taxas de acerto ou erro dos sistemas.

III. PROTÓTIPO PARA RECONSTRUÇÃO DE DOCUMENTOS MUTILADOS

A seguir são apresentadas as diferentes etapas que compõem o método proposto, de forma a possibilitar a realização de diferentes experimentos.

A. Bases de Dados: A etapa de criação de uma base de dados contemplou a

coleta aleatória de documentos em papel, os quais foram digitalizados utilizando-se scanner, considerando imagem a 24 bits e resolução de 300 dpi. Deste modo, um documento medindo, por exemplo, 15cm (largura) por 21cm (altura) gera um arquivo de 501 Kbytes em formato JPEG (1738x2430 pixels). Após a digitalização do documento em sua integralidade, foi realizada a etapa de Fragmentação dos documentos. Esta etapa de mutilação intencional dos documentos coletados foi realizada utilizando-se uma máquina fragmentadora de papel estilo “spaghetti”. Cada documento foi picotado em até 29 fragmentos, sendo que cada fragmento pode medir até 0,7 cm de largura e 27 cm de comprimento, conforme especificação da máquina fragmentadora Cadence, modelo FRG712.

Assim a base de dados conta atualmente com 200 documentos, classificados tal qual apresentado na Tabela I. Esta tabela apresenta a classificação dos documentos considerando o conteúdo (Classificação 01) e o tipo do documento (Classificação 02). Observa-se que a diversidade de documentos que compõem a base de dados permite avaliar o desempenho do método proposto.

ALEX OLIVEIRA MARQUES AND OBLADEN ALMENDRA FREITAS : DOCUMENT DECIPHERMENT 1361

Page 4: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

Os documentos que compõem a base de dados seguem as seguintes especificações: formato retangular ou quadrado; tamanho máximo A4; duas (preto e branco) ou mais cores. Após o procedimento de coleta, os documentos foram organizados, digitalizados completos, fragmentados, digitalizados fragmentados, numerados e armazenados. Os fragmentos de cada documento foram armazenados em envelope de papel pardo para auxiliar na conservação dos mesmos [2].

TABELA I TIPOS DE DOCUMENTOS

CLASSIFICAÇÃO 01 QUANT. CLASSIFICAÇÃO 02 QUANT.

Somente textos 20 Revistas 110 Textos e figuras 50 Documentos 60 Textos e tabelas 20 Propagandas 30 Textos, figuras e

tabelas 110 ---- ---

Total de documentos 200 Total de documentos 200 Somente textos 20 Revistas 110

B. Método de Reconstrução: O sistema proposto considera basicamente 3 etapas (Fig. 3)

tal qual descrito por Marques e Freitas [4]. O processo de reconstrução inicia com a aquisição da imagem dos fragmentos misturados e pertencente aos documentos a serem reconstruídos. Na seqüência atribui um identificador numérico e seqüencial único a cada fragmento, sendo que este identificador é utilizado na composição dos pares de bordas para remontagem digital do documento mutilado.

A primeira etapa realiza a extração de primitivas com base na cor dos pixels das bordas para dois modelos de representação: HSV (Hue-Saturation-Value) e RGB (Red-Green-Blue). A segunda etapa aplica o algoritmo dos Vizinhos-Mais-Próximos (Nearest Neighbor Algorithm) com base no cálculo da distância Euclidiana entre as bordas de fragmentos distintos. A terceira etapa, responsável por encontrar os pares de fragmentos, utiliza uma matriz de distâncias de forma que o método winner-takes-all permite avaliar a menor distância entre fragmentos distintos e indicar os fragmentos candidatos ao encaixe.

C. Extração de Primitivas: Para cada fragmento são extraídos dois vetores de

características (VC), sendo um para cada borda (VCE – borda esquerda e VCD – borda direita). O VC no modelo RGB, considera a extração independente dos 3 canais de cores, formando 3 vetores separados com valores entre 0 e 255 [10]. Já o modelo HSV é composto por 3 informações distintas, sendo que o presente trabalho utilizou a informação proveniente do canal H que corresponde a cor [12]. Assim, para o canal H = matiz (hue), tem-se que um ângulo de 0º a 360º, significando: 0º - 60º vermelho, 60º - 120º amarelo, 120º - 180º verde, 180º - 240º cyan, 240º - 300º azul e 300º - 360º magenta. Os VCs provenientes da extração de primitivas a partir dos dois diferentes modelos de cor são utilizados no processo de análise dos pares candidatos ao encaixe.

Figura 3. Método proposto.

D. Cálculo da Distância Euclidiana: O método proposto para determinação das distâncias entre

as bordas dos fragmentos utiliza a distância Euclidiana que é uma das medidas de similaridade entre dois pontos quaisquer num espaço de representação Euclidiana [12]. Assim, quanto menor o valor da distância Euclidiana entre dois pontos, mais próximas eles se apresentam em termos de parâmetros quantitativos por classe, logo, quanto menor a distância Euclidiana mais próximas estão as bordas dos fragmentos, formando os pares candidatos ao encaixe. Deste modo, a distância Euclidiana funciona como medida da similaridade entre os VCs das bordas, sendo a distância definida pela Equação 1 [10]:

(1)

Sendo: • d(xi, xj) = distância entre os VCs i e j, • ar(xi) = cada elemento do VCi para r = 1,2,..., n, • ar(xj) = cada elemento do VCj para r = 1,2,..., n, • n = número de pixels na borda do fragmento ou altura do

fragmento.

E. Matriz de Distâncias e Reconstrução do Documento: A Fig. 4 apresenta a matriz quadrada de dimensão igual ao

número de fragmentos a serem encaixados. Para cada modelo de cor utiliza-se uma matriz específica. Cada posição da matriz contém a Distância Euclidiana entre os VCEs de um fragmento com os VCDs de outro fragmento, para todos os fragmentos a serem analisados. O sistema não realiza o cálculo das distâncias para VCs pertencentes a um mesmo fragmento, portanto, a diagonal principal torna-se nula. Além disto, ao gerar a matriz para documentos misturados, pois o sistema não sabe a priori se existe mais de um documento a ser tratado, o sistema não permite a busca e encaixe de fragmentos com alturas distintas, marcando tais células com um valor numericamente grande, representado pelo caracter “X” na Fig. 4.

Assim, o sistema percorre a matriz utilizando uma lista duplamente encadeada para estabelecer qual a menor distância entre, por exemplo, o VCE do fragmento F1 e os VCDs dos demais fragmentos, F2 até Fn. Deste modo, considerando a matriz ilustrada na Fig. 4, para o VCE do fragmento F1 o encaixe será realizado com o VCD do fragmento F29, pois verifica-se que a menor distância encontrada para o fragmento

1362 IEEE LATIN AMERICA TRANSACTIONS, VOL. 11, NO. 6, DECEMBER 2013

Page 5: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

F1 é igual a 4,7, que corresponde ao fragmento F29. A partir disto os índices da lista duplamente encadeada são atualizados, apontando a borda esquerda do fragmento F1 para a borda direita do fragmento F29. Passa-se a buscar os próximos fragmentos à esquerda do fragmento F29 e assim por diante, até que se tenha percorrido toda a matriz de distâncias. Ao término do procedimento de busca o algoritmo apresenta a ordem dos fragmentos que permite a reconstrução digital do documento.

F1 F2 F3 F4 F5 F6 F7 F... F29 F1 ---- 14,1 15,4 9,1 34,1 12,0 44,7 4,7

F2 1,2 ---- 25,1 0,0 54,7 36,2 21,0 23,0

F3 36,2 4,1 ---- 17,1 0,5 13,1 21,1 15,1

F4 17,8 1,2 4,1 ---- 36,2 65,1 36,2 37,2

F5 1,1 6,3 54,1 14,6 ---- X 13,1 32,1

F6 36,2 19,4 X X X ---- 19,7 18,7

F7 17,7 31,2 15,6 19,5 7,8 8,5 ---- 36,2

F... ---- 5,2

F29 1,7 13,2 35,4 15,2 8,7 3,1 43,2 13,1 ---- Figura 4. Exemplo de matriz de distâncias entre fragmentos F1 … F6

IV. RESULTADOS EXPERIMENTAIS A seguir são apresentados os resultados experimentais, os

quais demonstram a aplicabilidade do método proposto e sua viabilidade na área de documentoscopia. Todos os resultados consideram a média dos acertos na reconstrução individual de todos os documentos da base de dados.

A. Resultados usando o modelo de cor RGB: A Tabela II apresenta os resultados obtidos para o modelo

RGB em função dos 2 tipos de classificação de documentos contidos na base de dados. Observa-se na Tabela II que o melhor resultado para o modelo RGB ocorre com os documentos do tipo Folders, Flyers, Anúncios, etc. Isto pode ser explicado devido ao fato destes documentos utilizarem muitas cores, além de textos, figuras e tabelas, com o intuito de despertar a atenção das pessoas. Observa-se, também, que os documentos contendo somente Texto alcançaram a taxa mais baixa de acertos, tal qual esperado, visto que estes documentos utilizam pouca variedade de cores (branco/preto), Fig. 5a. Na Fig. 5b apresenta-se o resultado da reconstrução com base no modelo RGB para um documento do tipo Flyers, sendo que ocorre confusão entre apenas dois fragmentos.

B. Resultados usando os canais R, G e B isoladamente: Foram realizados também experimentos com os canais R.

G e B isoladamente, como mostrado na Tabela III (Fig. 6a-c). Observa-se que o melhor resultado para o canal R novamente ocorre com os documentos do tipo Folders, Flyers, Anúncios, etc., alcançando 98% de acerto e, ainda, que a menor taxa de acertos ocorre com documentos do tipo Texto. De um modo geral, o canal R obteve os melhores resultado, para os três canais isoladamente. Os canais G e R obtiveram os mesmos resultados para os documentos da Classificação 02.

C. Resultados usando o modelo de cor HSV: Os resultados obtidos utilizando o modelo HSV foram

melhores que os obtidos com o modelo RGB ou seus canais separadamente, como mostrado na Tabela IV (Fig. 6d).

TABELA II

ACERTOS DO SISTEMA PARA MODELO RGB

Tipos de Documentos – Classificação 01 Taxa de Acerto (%)

Documentos 85,29 Revistas 92,10 Folders, Flyers, Anúncios, etc 97,68 Tipos de Documentos – Classificação 02 Taxa de Acerto

(%) Somente textos 79,66 Textos e figuras 87,07 Textos e tabelas 90,07 Textos, figuras e tabelas 93,95

(a)

(b)

Figura 5. Reconstrução pelo modelo RGB: a) Somente Texto, b) Flyers.

D. Avaliação do sistema para documentos misturados: Na prática os peritos recebem diversos documentos

misturados entre si e precisam fazer, além da reconstrução, a separação de cada um dos documentos. Assim, outro experimento realizado foi o embaralhamento de todos os documentos da base de dados para avaliar o grau de confusão gerado pelo sistema. Para este experimento o sistema alcançou 94,28% para o modelo HSV e 90,83% para o modelo RGB, demonstrando sua aplicabilidade.

Observou-se que o sistema não gerou confusão entre fragmentos de documentos distintos, ou seja, se o sistema não reconstruiu todo o documento corretamente conseguiu separar os fragmentos pertencentes a cada um dos documentos. Observou-se também que o menor número de erros, em quantidade de fragmentos corretamente encaixados, foi de 1 fragmento no modelo HSV. Porém, o maior número de erros, considerando o modelo RGB, foram 9 fragmentos posicionados erroneamente em um mesmo documento.

Notou-se também que a maioria dos erros de ordenação dos fragmentos encontra-se no inicio ou no final do documento. Isso é devido ao fato do sistema não saber qual é o fragmento inicial ou final do documento. Foi observado também que bordas opostas do documento tendem a se encontrar, quando os documentos são simétricos (Fig. 7a). Outro problema

ALEX OLIVEIRA MARQUES AND OBLADEN ALMENDRA FREITAS : DOCUMENT DECIPHERMENT 1363

Page 6: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

detectado é a junção de fragmentos totalmente brancos no início ou no final do documento (Fig. 7b). Isto ocorre, pois o método não aplica tratamento especial a este tipo de fragmento. Ao se consultar alguns peritos que realizam manualmente o procedimento de reconstrução, estes informaram que os fragmentos brancos não são considerados na montagem dos documentos e que, portanto, pode-se não considerar isto um erro no sistema. Tal adaptação será realizada para descartar automaticamente este tipo de fragmento antes de iniciar a busca pelos pares de fragmentos.

TABELA III

ACERTOS DO SISTEMA PARA OS CANAIS R, G E B, ISOLADAMENTE

Tipos de Documentos – Classificação 01 - Canal R

Taxa de Acerto (%)

Documentos 86,29 Revistas 93,15 Folders, Flyers, Anúncios, etc 98,00 Tipos de Documentos – Classificação 02 - Canal R

Taxa de Acerto (%)

Somente textos 82,36 Textos e figuras 90,07 Textos e tabelas 90,07 Textos, figuras e tabelas 94,95 Tipos de Documentos – Classificação 01 - Canal G

Taxa de Acerto (%)

Documentos 85,99 Revistas 92,15 Folders, Flyers, Anúncios, etc 97,07 Tipos de Documentos – Classificação 02 - Canal G

Taxa de Acerto (%)

Somente textos 81,36 Textos e figuras 90,00 Textos e tabelas 90,00 Textos, figuras e tabelas 94,00 Tipos de Documentos – Classificação 01 - Canal B

Taxa de Acerto (%)

Documentos 86,00 Revistas 92,15 Folders, Flyers, Anúncios, etc 97,05 Tipos de Documentos – Classificação 02 - Canal B

Taxa de Acerto (%)

Somente textos 81,35 Textos e figuras 90,00 Textos e tabelas 90,00 Textos, figuras e tabelas 94,00

TABELA IV

ACERTOS DO SISTEMA USANDO O MODELO HSV

Tipos de Documentos – Classificação 01 Taxa de Acerto (%)

Documentos 89,14 Revistas 95,99 Folders, Flyers, Anúncios, etc 98,53 Tipos de Documentos – Classificação 02 Taxa de Acerto

(%) Somente textos 82,76 Textos e figuras 90,00 Textos e tabelas 93,79 Textos, figuras e tabelas 97,42

(a)

(b)

(c)

(d)

Figura 6. Reconstrução pelos canais: a) R, b) G e c) B separadamente; d) modelo HSV.

V. DISCUSSÃO E CONCLUSÃO Uma das dificuldades encontradas em reconstruir

documentos mutilados, tanto para forma regular quanto para irregular, é a falsa borda ou borda dupla [6]. No caso de fragmentos com forma irregular, este tipo de borda é gerado pela ação de rasgar o documento gerando uma divisão da película de papel (Fig. 8a). Por outro lado, nos fragmentos regulares este problema é gerado pela ação da máquina picotadora fazendo com que uma camada de tinta se perca (Fig. 8b). Portanto, o método proposto trata o problema das bordas duplas considerando como fixo e igual a 2 o número de pixels pertencentes às bordas duplas, sendo que os pixels destas colunas não são considerados durante o procedimento de extração de primitivas. Além deste problema, durante o processo de fragmentação de um documento podem ocorrer algumas anomalias nos fragmentos, tais como: fragmentos não são exatamente retangulares; não possuem o mesmo formato em ambos os lados do fragmento; apresentam uma ligeira curvatura; são manipulados na digitalização e podem estar incompletos ou dobrados (Fig. 8c).

Finalmente, o trabalho apresentou um método para reconstrução digital de documentos mutilados com formato “spaghetti” utilizando as características da cor das bordas dos fragmentos. Os resultados demonstram que tais primitivas são promissoras e pode-se constatar que o modelo HSV apresentou melhor desempenho do que o modelo RGB ou seus canais isoladamente. Como trabalhos futuros pode-se destacar o uso de características globais para identificar os fragmentos candidatos pertencentes a um mesmo documento, utilização de outras primitivas baseadas em contexto (context-based),

1364 IEEE LATIN AMERICA TRANSACTIONS, VOL. 11, NO. 6, DECEMBER 2013

Page 7: Document Decipherment-restoration: Strip-shredded Document Reconstruction based on Color

aplicação de outros métodos de classificação baseados em treinamento, e, finalmente, ampliação da base de imagens de documentos mutilados.

Figura 7. Problemas: a) documentos simétricos e b) fragmentos em branco.

Figura 8. Problemas: a) bordas duplas nos fragmentos irregulares [6], b) bordas duplas nos fragmentos regulares e c) anomalias.

REFERÊNCIAS [1] L. B. Mendes.Documentoscopia. Editora Millenium, Campinas, São

Paulo, 2003. [2] E.J.R. Justino, L.E.S. Oliveira, C.O.A. Freitas, “Documentoscopia em

Documentos Questionados Degradados”. Âmbito Jurídico, Rio Grande, No. 22, Disponível em: http://www.ambito-juridico.com.br/site/index.php?n_link=revista_artigos_leitura&artigo_id=328 (2005) Acesso em 19-mai-2011.

[3] R.O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, John Wiley Interscience, 2001.

[4] M A. O. Marques and C.O.A. Freitas, Reconstructing Strip-shredded Documents Using Color as Feature Matching. In: 24th Annual ACM Symposium on Applied Computing (SAC-09), p. 863-864, 2009.

[5] H.C.G Leitão, Reconstrução Automática de Objetos Fragmentados, Tese de Doutorado de 21/10/1999, Instituto de Educação, Universidade Estadual de Campinas - UNICAMP, Campinas, São Paulo, 1999.

[6] E.J.R. Justino, L.E.S. Oliveira, C.O.A., Freitas, Reconstructing Shredded Documents Through Feature Matching. Forensic Science International Journal, Elsevier Ireland Ltd., v. 140, p. 140-147, 2006.

[7] A.M. Pimenta, E.J.R. Justino, L.E.S. Oliveira, R. Sabourin, Document Reconstruction using Dynamic Programming. In: IEEE International Conference on Acoustics, Speech, and Signal Processing, Taipei, p. 1393-1396, 2009.

[8] A. Ukovich, G. Ramponi, H. Doulaverakis, Y. Kompatsiaris, Shredded Document Reconstruction using MPEG-7 Standard Descriptors. In: IEEE Int. Symp. on Signal Processing and Information Technology (ISSPIT-04), p. 18—21, 2004.

[9] A. Skeoch, An Investigation into Automated Shredded Document Reconstruction using Heuristic Search Algorithms, Dissertation is submitted to the University of Bath, in accordance with the

requirements of the degree of Batchelor of Science in the Department of Computer Science, Bath, UK, 2006.

[10] http://www.churchstreet-technology.com [11] http://www.unshredder.com [12] R. Gonzalez and R.E. Woods, Digital Image Processing. Addison-

Wesley Publishing Company (1993)

Marlos Alex Oliveira Marques possui graduação em Bacharelado em Sistemas de Informação pela Faculdade Spei - PR (2002) e Mestrado em Informática pela Pontifícia Universidade Católica do Paraná (2009), na área de Computação Forense e Biometria. Atualmente presta serviços de Analise de Sistemas e Consultoria para a empresa Drive Consultoria e Informática Ltda. e também é professor da

Faculdade Cenecista de Campo Largo - PR. Tem 10 anos de experiência na área de Ciência da Computação.

Cinthia Obladen de Almendra Freitas é graduada em Engenharia Civil pela Universidade Federal do Paraná (UFPR) em 1985. Recebeu o título de Mestre em Ciências – Ênfase em Informática Industrial pelo Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial (CPGEI) da Universidade Tecnológica Federal do Paraná (UTFPR) em 1990. Recebeu o título de Doutor em Informática do Programa de Pós-Graduação em Informática

da Pontifícia Universidade Católica do Paraná (PUCPR) em 2001. É professora Titular da PUCPR para os cursos de Graduação em Ciência da Computação e Direito, na qual atua desde 1985. É pesquisadora dos Programas de Pós-Graduação em Informática (PPGIa) e Direito (PPGD), ambos da PUCPR.

ALEX OLIVEIRA MARQUES AND OBLADEN ALMENDRA FREITAS : DOCUMENT DECIPHERMENT 1365