deep learning for computer vision: saliency prediction (upc 2016)

Day 3 Lecture 2

Saliency PredictionAcknowledments: Junting Pan, Kevin McGuinness and Xavier Giró-i-Nieto

Elisa Sayrol

[course site]

https://imatge.upc.edu/web/people/elisa-sayrol

https://imatge.upc.edu/web/people/elisa-sayrol

http://imatge-upc.github.io/telecombcn-2016-dlcv/

http://imatge-upc.github.io/telecombcn-2016-dlcv/

2

Saliency

3

What have you seen?

Saliency

4

Lighthouse

Saliency

5

HouseLighthouse

Saliency

6

Rocks

HouseLighthouse

Saliency

7

Saliency

Saliency Map

Original Image Ground Truth Saliency Map(Eye-Fixation Map)

The Goal is to obtain the Saliency Map of an Image. Regression problem, not Classification

9

Eye Tracker Mouse Click

Data Bases: Groundtruth generation

10

DataBases

Other databases: http://saliency.mit.edu/datasets.html

TRAIN VALIDATION TEST

SALICONJiang’15

10,000 5,000 5,000

iSun Xu’15 6,000 926 2,000

CAT2000 [Borji’15] 2,000 - 2,000

MIT300 [Judd’12] 300 - -

Pascal-S 850

http://saliency.mit.edu/datasets.html

http://salicon.net/

http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Jiang_SALICON_Saliency_in_2015_CVPR_paper.html

http://vision.princeton.edu/projects/2014/iSUN/

http://arxiv.org/abs/1504.06755

http://vision.princeton.edu/projects/2014/iSUN/

http://saliency.mit.edu/results_cat2000.html

http://saliency.mit.edu/results_cat2000.html

http://saliency.mit.edu/results_mit300.html

http://saliency.mit.edu/results_mit300.html

11

Upsample + filter

2D map

96x96 2340=48x48

Architectures: Junting Net (Shallow Network)

Loss function Mean Square Error (MSE)

Weight initialization Gaussian distribution

Learning rate 0.03 to 0.0001

Mini batch size 128

Training time 7h (SALICON) / 4h (iSUN)

Acceleration SGD+ nesterov momentum (0.9)

Regularisation Maxout norm

GPU NVidia GTX 980

Architectures: Junting Net (Shallow Network)

Shallow and Deep Convolutional Networks for Saliency PredictionJunting Pan, Kevin McGuinness, Elisa Sayrol, Noel O'Connor, Xavier Giro-i-Nieto, CVPR 2016

Winner of the LSUN Challenge 2015!!

https://arxiv.org/abs/1603.00845


Architectures: SalNet (Deep Network)

Loss function Mean Square Error (MSE)

Weight initialization First 3 layers pre-trained with VGG, the rest of the layers random distribution

Learning rate 0,01(halved every 100 iterations)

Mini batch size 2 images for 24.000 iterations

Training time 15h

Acceleration SGD+ nesterov momentum (0.9)

Regularisation L2 weight

GPU NVidia GTX Titan

Shallow and Deep Convolutional Networks for Saliency PredictionJunting Pan, Kevin McGuinness, Elisa Sayrol, Noel O'Connor, Xavier Giro-i-Nieto, CVPR 2016



Quality Results

15

Results from CVPR LSUN Challenge 2015 (iSUN Database)

Architectures: Junting Net (Shallow Network) Winner of the LSUN Challenge 2015!!

Quantitative Results

Metrics: Saliency and Human Fixations: State-of-the-art and Study of Comparison MetricsNicolas Riche, Matthieu Duvinage, Matei Mancas, Bernard Gosselin and Thierry Dutoit, iccv 2013

http://tcts.fpms.ac.be/publications/papers/2013/iccv2013_nrmdmmbgtd.pdf

http://tcts.fpms.ac.be/publications/papers/2013/iccv2013_nrmdmmbgtd.pdf

Similar to VGG_16

Architectures: Saliency Unified ( Very Deep Network)

Saliency Unified: A Deep Architecture for simultaneous Eye Fixation Prediction and Salient Object SegmentationSrinivas S S Kruthiventi, Vennela Gudisa, Jaley H Dholakiya and R. Venkatesh Babu, CVPR 2016

http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Kruthiventi_Saliency_Unified_A_CVPR_2016_paper.pdf


Quantitative Results

Saliency Unified: A Deep Architecture for simultaneous Eye Fixation Prediction and Salient Object SegmentationSrinivas S S Kruthiventi, Vennela Gudisa, Jaley H Dholakiya and R. Venkatesh Babu, CVPR 2016



deep learning for computer vision: saliency prediction (upc 2016)

Data & Analytics