understanding fully-connected and convolutional layers in ......understanding fully-connected and...

1
Understanding fully-connected and convolutional layers in unsupervised learning using face images Lucas Fontes Buzuti Department of Electrical Engineering FEI University Center ao Bernardo do Campo-SP, Brazil [email protected] Carlos Eduardo Thomaz Department of Electrical Engineering FEI University Center ao Bernardo do Campo-SP, Brazil [email protected] Abstract—The goal of this paper is to implement and compare two unsupervised models of deep learning: Autoencoder and Convolutional Autoencoder. These neural network models have been trained to learn regularities in well-framed face images with different facial expressions. The Autoencoder’s basic topology is addressed here, composed of encoding and decoding multilayers. This paper approaches these automatic codings using multivari- ate statistics to visually understand the bottleneck differences between the fully-connected and convolutional layers and the corresponding importance of the dropout strategy when applied in a model. Index Terms—deep neural network, autoencoder, convolutional autoencoder, multivariate statistics I. I NTRODUC ¸˜ AO Estudos relacionados a Inteligencia Artificial, com foco em Aprendizagem Profunda (Deep Learning) vˆ em mostrando resultados impressionantes na ´ area de reconhecimento de padr˜ oes, chegando a superar o estado-da-arte [8] [11] [15]. No contexto de reconhecer padr˜ oes em imagens de faces, capturadas com diferentes express˜ oes faciais, este artigo implementa e analisa um modelo de aprendizado ao- supervisionado de redes neurais profundas denominado au- toencoders, com o objetivo de compreender regularidades extra´ ıdas destas imagens. Historicamente, em 1986 os autoencoders tiveram uma primeira citac ¸˜ ao indiretamente em um artigo relacionado ao erro de propagac ¸˜ ao [17], descrevendo um novo tipo de rede feedforward na ´ epoca e seu formalismo matem´ atico. A ideia ressurgiu em trabalhos subsequentes de pesquisa nos anos seguintes. Em 1989 Baldi e Hornik [2] introduziram os au- toencoders propondo uma descric ¸˜ ao precisa das caracter´ ısticas salientes da superf´ ıcie anexada a func ¸˜ ao de erro quando as unidades s˜ ao lineares. Durante as d´ ecadas de 1980 e 1990, diversos algoritmos de aprendizado n˜ ao supervision- ados que foram sugeridos para redes neurais puderam ser vistos como variac ¸˜ oes de dois m´ etodos b´ asicos: An´ alise de Componentes Principais (Principal Components Analysis ou PCA) e Quantizac ¸˜ ao Vetorial (Vector Quantization ou VQ). Entretanto, em 1994, Hinton e Zemel [9] descreveram uma nova func ¸˜ ao objetiva para o treinamento de autoencoders que permitiu extrac ¸˜ oes de representac ¸˜ oes fatoriais n˜ ao lineares. Usando o autoencoder para reduzir a dimensionalidade de dados, Hinton e Salakhutdinov comprovaram em 2006, a eficiˆ encia do autoencoder em relac ¸˜ ao ao PCA [8]. O uso de Deep Learning vem aumentando exponencial- mente e esse crescimento est´ a sendo poss´ ıvel porque redes neurais profundas com topologias muito complexas est˜ ao sendo computadas em GPUs (Graphics Processing Unit), permitindo comprovar na pr´ atica, o que no passado havia sido realizado matematicamente. Neste artigo, ser´ a investigado um autoencoder profundo (Deep Autoencoder) [8] para an´ alise de padr˜ oes em imagens faciais comparando dois tipos de camadas, sendo essas: To- talmente Conectada (Fully-Connected Layer) e Convolucional (Convolutional Layer). Tais redes neurais profundas contˆ em ultiplas camadas n˜ ao lineares, tornando-as modelos adequa- dos para aprender relac ¸˜ oes complexas entre entradas e sa´ ıdas de imagens de faces, como exemplificado aqui. II. MAPEAMENTO DE ENTRADAS EM SA´ IDAS A. Autoencoders Rumelhart, Hinton e Williams [17] descreveram um prob- lema em que um conjunto de padr˜ oes de entradas s˜ ao ma- peados para um conjunto de padr˜ oes de sa´ ıdas atrav´ es de um n´ umero reduzido de neurˆ onios/unidades ocultas (hidden units). Para provar o problema proposto, conjecturaram o mapeamento de N padr˜ oes bin´ arios de entrada para N padr˜ oes de sa´ ıda, no qual N representa o n´ umero de unidades de entrada e sa´ ıda, al´ em disso presumiram o n´ umero de neur ˆ onios da camada oculta atrav´ es de log 2 N [17]. O sistema proposto aprende a usar as unidades da camada oculta para formar um c´ odigo com padr˜ ao bin´ ario distinto de cada N padr˜ oes de entrada. A topologia da rede realiza a codificac ¸˜ ao de N padr˜ oes de bits em log 2 N e ent˜ ao decodifica essas representac ¸˜ oes para os padr˜ oes de sa´ ıda. O autoencoder pode ser descrito em duas partes: func ¸˜ ao do codificador (en- coder function) e func ¸˜ ao do decodificador (decoder function), tal que a func ¸˜ ao h = f (xW + b) (1) ´ e a representac ¸˜ ao latente, x os dados de entrada, W matriz de pesos, b matriz bias e f a func ¸˜ ao de ativac ¸˜ ao, e

Upload: others

Post on 23-Dec-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Understanding fully-connected and convolutional layers in ......Understanding fully-connected and convolutional layers in unsupervised learning using face images Lucas Fontes Buzuti

Understanding fully-connected and convolutionallayers in unsupervised learning using face images

Lucas Fontes BuzutiDepartment of Electrical Engineering

FEI University CenterSao Bernardo do Campo-SP, Brazil

[email protected]

Carlos Eduardo ThomazDepartment of Electrical Engineering

FEI University CenterSao Bernardo do Campo-SP, Brazil

[email protected]

Abstract—The goal of this paper is to implement and comparetwo unsupervised models of deep learning: Autoencoder andConvolutional Autoencoder. These neural network models havebeen trained to learn regularities in well-framed face images withdifferent facial expressions. The Autoencoder’s basic topology isaddressed here, composed of encoding and decoding multilayers.This paper approaches these automatic codings using multivari-ate statistics to visually understand the bottleneck differencesbetween the fully-connected and convolutional layers and thecorresponding importance of the dropout strategy when appliedin a model.

Index Terms—deep neural network, autoencoder, convolutionalautoencoder, multivariate statistics

I. INTRODUCAO

Estudos relacionados a Inteligencia Artificial, com focoem Aprendizagem Profunda (Deep Learning) vem mostrandoresultados impressionantes na area de reconhecimento depadroes, chegando a superar o estado-da-arte [8] [11] [15].No contexto de reconhecer padroes em imagens de faces,capturadas com diferentes expressoes faciais, este artigoimplementa e analisa um modelo de aprendizado nao-supervisionado de redes neurais profundas denominado au-toencoders, com o objetivo de compreender regularidadesextraıdas destas imagens.

Historicamente, em 1986 os autoencoders tiveram umaprimeira citacao indiretamente em um artigo relacionado aoerro de propagacao [17], descrevendo um novo tipo de redefeedforward na epoca e seu formalismo matematico. A ideiaressurgiu em trabalhos subsequentes de pesquisa nos anosseguintes. Em 1989 Baldi e Hornik [2] introduziram os au-toencoders propondo uma descricao precisa das caracterısticassalientes da superfıcie anexada a funcao de erro quandoas unidades sao lineares. Durante as decadas de 1980 e1990, diversos algoritmos de aprendizado nao supervision-ados que foram sugeridos para redes neurais puderam servistos como variacoes de dois metodos basicos: Analise deComponentes Principais (Principal Components Analysis ouPCA) e Quantizacao Vetorial (Vector Quantization ou VQ).Entretanto, em 1994, Hinton e Zemel [9] descreveram umanova funcao objetiva para o treinamento de autoencoders quepermitiu extracoes de representacoes fatoriais nao lineares.Usando o autoencoder para reduzir a dimensionalidade de

dados, Hinton e Salakhutdinov comprovaram em 2006, aeficiencia do autoencoder em relacao ao PCA [8].

O uso de Deep Learning vem aumentando exponencial-mente e esse crescimento esta sendo possıvel porque redesneurais profundas com topologias muito complexas estaosendo computadas em GPUs (Graphics Processing Unit),permitindo comprovar na pratica, o que no passado havia sidorealizado matematicamente.

Neste artigo, sera investigado um autoencoder profundo(Deep Autoencoder) [8] para analise de padroes em imagensfaciais comparando dois tipos de camadas, sendo essas: To-talmente Conectada (Fully-Connected Layer) e Convolucional(Convolutional Layer). Tais redes neurais profundas contemmultiplas camadas nao lineares, tornando-as modelos adequa-dos para aprender relacoes complexas entre entradas e saıdasde imagens de faces, como exemplificado aqui.

II. MAPEAMENTO DE ENTRADAS EM SAIDAS

A. Autoencoders

Rumelhart, Hinton e Williams [17] descreveram um prob-lema em que um conjunto de padroes de entradas sao ma-peados para um conjunto de padroes de saıdas atraves deum numero reduzido de neuronios/unidades ocultas (hiddenunits). Para provar o problema proposto, conjecturaram omapeamento de N padroes binarios de entrada para N padroesde saıda, no qual N representa o numero de unidades deentrada e saıda, alem disso presumiram o numero de neuroniosda camada oculta atraves de log2N [17].

O sistema proposto aprende a usar as unidades da camadaoculta para formar um codigo com padrao binario distinto decada N padroes de entrada. A topologia da rede realiza acodificacao de N padroes de bits em log2N e entao decodificaessas representacoes para os padroes de saıda. O autoencoderpode ser descrito em duas partes: funcao do codificador (en-coder function) e funcao do decodificador (decoder function),tal que a funcao

h = f(xW + b) (1)

e a representacao latente, x os dados de entrada, W matriz depesos, b matriz bias e f a funcao de ativacao, e