reading digits in natural images with unsupervised feature learning › menotti › rp142 › sem...
TRANSCRIPT
![Page 1: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/1.jpg)
READING DIGITS IN NATURAL IMAGES
WITH UNSUPERVISED FEATURE
LEARNING
Fernanda Maria Sirlene
![Page 2: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/2.jpg)
READING DIGITS IN NATURAL IMAGES
WITH UNSUPERVISED FEATURE LEARNING
NIPS Workshop on Deep Learning and
Unsupervised Feature Learning
Ano de publicação: 2011
Citado por 45 trabalhos.
07
/10
/201
4
2
![Page 3: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/3.jpg)
SUMARIO
Introdução
SHVN Dataset
Modelos
Hand Crafted Features
Learned Features
Resultados
Aplicação
Mapeamento
Segmentação dos Dígitos
Conclusão
Referências
07
/10
/201
4
3
![Page 4: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/4.jpg)
INTRODUÇÃO
Processar Imagens Naturais
Problema:
Identificar números das casas postados nas frentes de
edifícios.
Aplicações:
Mapas mais precisos
Serviços de navegação melhorados
07
/10
/201
4
4
![Page 5: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/5.jpg)
INTRODUÇÃO
Base:
Google Street View imagens (SVHN)
Mais de 600 mil
Problema:
Dígitos de números de casas nas ruas
Método
Dois Sistemas de aprendizagem
Grande corpus de dados de dígitos.
07
/10
/201
4
5
![Page 6: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/6.jpg)
BASE DE DADOS: STREET VIEW HOUSE
NUMBERS (SVHN)
Mundo real (cenas naturais);
Mais de 600.000 imagens de dígitos:
Treinamento: 73.257
Teste: 26.032
Extra (ligeiramente mais fáceis): 531.131
Formatos 1:
Imagens originais com caixas delimitadoras.
Formato 2 (cropped):
Dimensão: 32-por-32
Não introduz distorções de aspect ratio
Introduz dígitos (ou parte) além do dígito de
interesse
![Page 7: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/7.jpg)
FORMATO DOS DADOS
Formato 1 Formato 2
![Page 8: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/8.jpg)
MODELO: HAND CRAFTED FEATURES
Binarização Sauvola
Calcula um limiar local para cada pixel individualmente.
Intensidades de imagem na vizinhança local do pixel único.
07
/10
/201
4
8
![Page 9: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/9.jpg)
MODELO: HAND CRAFTED FEATURES
HOG
Captura borda ou gradientes
Duas classes de geometrias de blocos:
R-HOG
Os quadrados ou retangulares
Redes densas em uma única escala sem alinhamento
C-HOG
Circulares
Grade de log-polar
07
/10
/201
4
9
![Page 10: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/10.jpg)
ALGORITMOS DE APRENDIZADO DE
CARACTERÍSTICAS
Aprendem características a partir dos próprios
dados;
Características mais especificas.
Envolvem fase não supervisionada.
Algoritmos utilizados:
Auto-codificadores esparsos empilhados;
Rede neural convolucional (com k-means).
![Page 11: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/11.jpg)
AUTO-ENCODERS ESPARSOS EMPILHADOS
Rede não supervisionada;
Aprende um mapeamento de suas entradas para
elas próprias.
Exemplo: 8 neurônios de entrada e 3 na camada oculta
Auto-encoder aprende a representar 8 exemplos com
codificação binária de 3 bits.
![Page 12: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/12.jpg)
DENOISING AUTO-ENCODER
![Page 13: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/13.jpg)
TREINAMENTO DO AUTO-ENCODER
Cada auto-encoder é treinado usando o algoritmo
de retropropagação:
Com o erro calculado, o algoritmo corrige os pesos em
todas as camadas, partindo da saída até a entrada.
Auto-encoder esparso: um termo para penalizar
a ativação de neurônios é incluído.
Após essa etapa de treinamento a camada de
decodificação é descartada.
![Page 14: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/14.jpg)
EMPILHAMENTO DE AUTO-CODIFICADORES
![Page 15: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/15.jpg)
REDE NEURAL CONVOLUCIONAL (COM K-MEANS)
07
/10
/201
4
15
K-means: banco de filtros D.
Calcula-se z para cada sub-janela 8x8.
z = max {0, |D . x| - α}, onde α = 0,5.
Algoritmo de retropropagação não é utilizado.
Classificação: SVM.
![Page 16: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/16.jpg)
RESULTADOS
Tabela 1: precisões sobre SVHN-de teste.
07
/10
/201
4
16
![Page 17: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/17.jpg)
APLICAÇÃO: MAPEAMENTO
Imagens Street View
Números de casas
Melhorar a precisão dos mapas.
Geocodificação de endereços.
07
/10
/201
4
17
![Page 18: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/18.jpg)
SEGMENTAÇÃO DOS DÍGITOS
A. Classificador baseado no deslizamento de
janelas: intensidades da imagem e gradientes;
B. Search Beam: usa uma função de pontuação
heurística para limitar o espaço de buscas.
C. Seleção manual.
![Page 19: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/19.jpg)
CONCLUSÃO
Melhores resultados: métodos que utilizam
aprendizado de características não
supervisionado.
Ainda há espaço para melhorias.
![Page 20: READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING › menotti › rp142 › sem › sem2-dp1-pres.pdf · 2014-10-08 · READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED](https://reader033.vdocuments.us/reader033/viewer/2022060500/5f1a976a22819b12f8028ead/html5/thumbnails/20.jpg)
REFERÊNCIAS
Netzer, Y., Wang, T., Coates, A., Bissacco, A., Wu, B., & Ng, A. Y.
(2011). Reading digits in natural images with unsupervised
feature learning. In NIPS workshop on deep learning and
unsupervised feature learning (Vol. 2011, p. 4).
Coates, A., Carpenter, B., Case, C., Satheesh, S., Suresh, B.,
Wang, T., ... & Ng, A. Y. (2011, September). Text detection and
character recognition in scene images with unsupervised feature
learning. In Document Analysis and Recognition (ICDAR), 2011
International Conference on (pp. 440-445). IEEE.
Wang, T., Wu, D. J., Coates, A., & Ng, A. Y. (2012, November).
End-to-end text recognition with convolutional neural networks.
In Pattern Recognition (ICPR), 2012 21st International
Conference on (pp. 3304-3308). IEEE.
07
/10
/201
4
20