deep learning for computer vision (1/4): image analytics @ lasalle 2016

DocXavi

Deep Learning for Computer VisionImage Analytics 5 May 2016

Xavier Giroacute-i-Nieto

Master en Creacioacute Multimedia

2

Densely linked slides

3

IntroductionXavier Giro-i-Nieto

bull Web httpsimatgeupceduwebpeoplexavier-giroAssociate Professor at Universitat Politecnica de Catalunya (UPC)

4

Acknowledgments

5

Acknowledgments

One lecture organized in three parts

6

Images (global) Objects (local)

Deep ConvNets for Recognition for

Video (2D+T)


7



Video (2D+T)

Previously before deep learning

8Slide credit Jose M Agravelvarez

Dog


Dog

Learned Representation


Outline for Part I Image Analytics

10

Dog


Part I End-to-end learning (E2E)

11



Task A(eg image classification)


12




Task B(eg image retrieval)Part II Off-the-shelf features


13






E2E Classification Supervised learning

14

Manual Annotations Model

New ImageAutomatic

classification

Training

Test

Anchor

E2E Classification LeNet-5

15

LeCun Y Bottou L Bengio Y amp Haffner P (1998) Gradient-based learning applied to document recognition Proceedings of the IEEE 86(11) 2278-2324


16

Demo 3D Visualization of a Convolutional Neural Network

Harley Adam W An Interactive Node-Link Visualization of Convolutional Neural Networks In Advances in Visual Computing pp 867-877 Springer International Publishing 2015

E2E Classification Similar to LeNet-5

17

Demo Classify MNIST digits with a Convolutional Neural Network

ldquoConvNetJS is a Javascript library for training Deep Learning models (mainly Neural Networks) entirely in your browser Open a tab and youre training No software requirements no compilers no installations no GPUs no sweatrdquo

E2E Classification Databases

18

Li Fei-Fei ldquoHow wersquore teaching computers to understand picturesrdquo TEDTalks 2014

Russakovsky O Deng J Su H Krause J Satheesh S Ma S amp Fei-Fei L (2015) Imagenet large scale visual recognition challenge arXiv preprint arXiv14090575 [web]

19



20

Zhou Bolei Agata Lapedriza Jianxiong Xiao Antonio Torralba and Aude Oliva Learning deep features for scene recognition using places database In Advances in neural information processing systems pp 487-495 2014 [web]


205 scene classes (categories) Images

25M train 205k validation 41k test

21

E2E Classification ImageNet ILSRVC

1000 object classes (categories) Images

12 M train 100k test



Predict 5 classes

Slide credit Rob Fergus (NYU)

Image Classifcation 2012

-98

Russakovsky O Deng J Su H Krause J Satheesh S Ma S amp Fei-Fei L (2014) Imagenet large scale visual recognition challenge arXiv preprint arXiv14090575 [web] 23

E2E Classification ILSRVC

E2E Classification AlexNet (Supervision)

24Slide credit Junting Pan ldquoVisual Saliency Prediction using Deep Learning Techniquesrdquo (ETSETB-UPC 2015)

Orange

A Krizhevsky I Sutskever GE Hinton ldquoImagenet classification with deep convolutional neural networksrdquo Part of Advances in Neural Information Processing Systems 25 (NIPS 2012)





27Image credit Deep learning Tutorial (Stanford University)






30

RectifiedLinearUnit (non-linearity)

f(x) = max(0x)

Slide credit Junting Pan ldquoVisual Saliency Prediction using Deep Learning Techniquesrdquo (ETSETB-UPC 2015)


31

Dot Product



ImageNet Classification 2013



32


The development of better convnets is reduced to trial-and-error

33

E2E Classification Visualize ZF

Visualization can help in proposing better architectures

Zeiler M D amp Fergus R (2014) Visualizing and understanding convolutional networks In Computer VisionndashECCV 2014 (pp 818-833) Springer International Publishing

ldquoA convnet model that uses the same components (filtering pooling) but in reverse so instead of mapping pixels to features does the oppositerdquo

Zeiler Matthew D Graham W Taylor and Rob Fergus Adaptive deconvolutional networks for mid and high level feature learning Computer Vision (ICCV) 2011 IEEE International Conference on IEEE 2011

34



Dec

onvN

etC

onvN

et

35


36


37


38


ldquoTo examine a given convnet activation we set all other activations in the layer to zero and pass the feature maps as input to the attached deconvnet layerrdquo

39


40


ldquo(i) Unpool In the convnet the max pooling operation is non-invertible however we can obtain an approximate inverse by recording the locations of the maxima within each pooling region in a set of switch variablesrdquo

41


XX

ldquo(ii) Rectification The convnet uses ReLU non-linearities which rectify the feature maps thus ensuring the feature maps are always positiverdquo

42


ldquo(iii) Filtering The convnet uses learned filters to convolve the feature maps from the previous layer To approximately invert this the deconvnet uses transposed versions of the same filters (as other autoencoder models such as RBMs) but applied to the rectified maps not the output of the layer beneath In practice this means flipping each filter vertically and horizontally

XX

XX

43



XX

XX

44


45

Top 9 activations in a random subset of feature maps across the validation data projected down to pixel space

using our deconvolutional network approachCorresponding image patches


46


47


48


Zeiler M D amp Fergus R (2014) Visualizing and understanding convolutional networks In Computer VisionndashECCV 2014 (pp 818-833) Springer International Publishing 49




51

The smaller stride (2 vs 4) and filter size (7x7 vs 11x11) results in more distinctive features and fewer ldquodead features

AlexNet (Layer 1) Clarifai (Layer 1)


52

Cleaner features in Clarifai without the aliasing artifacts caused by the stride 4 used in AlexNet



53

Regularization with dropout

Reduction of overfitting by setting to zero the output of a portion (typically 50) of each intermediate neuron

Hinton G E Srivastava N Krizhevsky A Sutskever I amp Salakhutdinov R R (2012) Improving neural networks by preventing co-adaptation of feature detectors arXiv preprint arXiv12070580

Chicago

E2E Classification Dropout ZF

54


55

E2E Classification Ensembles ZF



-5


56




-5


57


E2E Classification

58

E2E Classification GoogLeNet

59Movie Inception (2010)


60

22 layers but 12 times fewer parameters than AlexNet

Szegedy Christian Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke and Andrew Rabinovich Going deeper with convolutions CVPR 2015 [video] [slides] [poster]


61

Challenges of going deeper Overfitting due to the increase amount of parameters Inefficient computation if most weights end up close to zero

Solution

Sparsity

How

Inception modules


62


63Lin Min Qiang Chen and Shuicheng Yan Network in network ICLR 2014



E2E Classification GoogLeNet (NiN)

65

3x3 and 5x5 convolutions deal with different scales

Lin Min Qiang Chen and Shuicheng Yan Network in network ICLR 2014 [Slides]

66

1x1 convolutions does dimensionality reduction (c3ltc2) and accounts for rectified linear units (ReLU)



67

In NiN the Cascaded 1x1 Convolutions compute reductions after the convolutions




68

In GoogLeNet the Cascaded 1x1 Convolutions compute reductions before the expensive 3x3 and 5x5 convolutions




70

3x3 max pooling introduces somewhat spatial invariance and has proven a benefitial effect by adding an alternative parallel path


71

Two Softmax Classifiers at intermediate layers combat the vanishing gradient while providing regularization at training time

and no fully connected layers needed


72


73NVIDIA ldquoNVIDIA and IBM CLoud Support ImageNet Large Scale Visual Recognition Challengerdquo (2015)


74Szegedy Christian Wei Liu Yangqing Jia Pierre Sermanet Scott Reed Dragomir Anguelov Dumitru Erhan Vincent Vanhoucke and Andrew Rabinovich Going deeper with convolutions CVPR 2015 [video] [slides] [poster]

E2E Classification VGG

75Simonyan Karen and Andrew Zisserman Very deep convolutional networks for large-scale image recognition International Conference on Learning Representations (2015) [video] [slides] [project]



E2E Classification VGG 3x3 Stacks

77

Simonyan Karen and Andrew Zisserman Very deep convolutional networks for large-scale image recognition International Conference on Learning Representations (2015) [video] [slides] [project]


78


No poolings between some convolutional layers Convolution strides of 1 (no skipping)

E2E Classification

79

36 top 5 errorhellipwith 152 layers

E2E Classification ResNet

80He Kaiming Xiangyu Zhang Shaoqing Ren and Jian Sun Deep Residual Learning for Image Recognition arXiv preprint arXiv151203385 (2015) [slides]


81

Deeper networks (34 is deeper than 18) are more difficult to train

He Kaiming Xiangyu Zhang Shaoqing Ren and Jian Sun Deep Residual Learning for Image Recognition arXiv preprint arXiv151203385 (2015) [slides]

Thin curves training errorBold curves validation error


82

Residual learning reformulate the layers as learning residual functions with reference to the layer inputs instead of learning unreferenced functions




84

E2E Classification Humans


85


ldquoIs this a Border terrierrdquo

Crowdsourcing

Yes

No

Binary ground truth annotation from the crowd


86

Annotation Problems

Carlier Axel Amaia Salvador Ferran Cabezas Xavier Giro-i-Nieto Vincent Charvillat and Oge Marques Assessment of crowdsourcing and gamification loss in user-assisted object segmentation Multimedia Tools and Applications (2015) 1-28


Crowdsource loss (03) More than 5 objects classes


87Andrej Karpathy ldquoWhat I learned from competing against a computer on ImageNetrdquo (2014)

Test data collection from one human [interface]




ldquoAww a cute dog Would you like to spend 5 minutes scrolling through 120 breeds of dog to guess what species it is rdquo



89NVIDIA ldquoMochajl Deep Learning for Juliardquo (2015)

ResNet

9090

Letrsquos play a game

91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency

Slide credit Junting Pan ldquoVisual Saliency Prediction using Deep Learning Techniquesrdquo (ETSETB 2015)

97

Eye Tracker Mouse Click


E2E Saliency

98

E2E Saliency JuntingNet

Junting Pan Kevin McGuinness Elisa Sayrol Noel OConnor and Xavier Giro-i-Nieto Shallow and Deep Convolutional Networks for Saliency Prediction CVPR 2016

99



100

TRAIN VALIDATION TEST

10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000

MIT300 [Juddrsquo12] 300 - -LargeScale



101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107

Loss function Mean Square Error (MSE)

Weight initialization Gaussian distribution

Learning rate 003 to 00001

Mini batch size 128

Training time 7h (SALICON) 4h (iSUN)

Acceleration SGD+ nesterov momentum (09)

Regularisation Maxout norm

GPU NVidia GTX 980



108

Number of iterations (Training time)

Back-propagation with the Euclidean distance Training curve for the SALICON database



109

JuntingNetGround TruthPixels

E2E Saliency JuntingNet iSUN


110




111

Results from CVPR LSUN Challenge 2015



112


E2E Saliency JuntingNet SALICON


113




114




115



116


Domain BFine-tuned


Part Irsquo End-to-End Fine-Tuning (FT)


Domain ALearned Representation


Transfer


117

E2E Fine-tuning

Fine-tuning a pre-trained network

Slide credit Victor Campos ldquoLayer-wise CNN surgery for Visual Sentiment Predictionrdquo (ETSETB 2015)

118

E2E Fine-tuning



119

E2E Fine-tuning Sentiments

CNN

Campos Victor Amaia Salvador Xavier Giro-i-Nieto and Brendan Jou Diving Deep into Sentiment Understanding Fine-tuned CNNs for Visual Sentiment Prediction In Proceedings of the 1st International Workshop on Affect amp Sentiment in Multimedia pp 57-62 ACM 2015

120

Campos Victor Xavier Giro-i-Nieto and Brendan Jou ldquoFrom pixels to sentimentsrdquo (Submitted)

Long Jonathan Evan Shelhamer and Trevor Darrell Fully Convolutional Networks for Semantic Segmentation CVPR 2015


True positive True negative False positive False negative

Visualizations with fully convolutional networks

121

E2E Fine-tuning Cultural events

ChaLearn Workshop

A Salvador Zeppelzauer M Manchon-Vizuete D Calafell-Oroacutes A and Giroacute-i-Nieto X ldquoCultural Event Recognition with Visual ConvNets and Temporal Modelsrdquo in CVPR ChaLearn Looking at People Workshop 2015 2015 [slides]

122

VGG + Fine tuned

E2E Fine-tuning Saliency prediction

123


Junting Pan Kevin McGuinness Elisa Sayrol Noel OConnor and Xavier Giro-i-Nieto Shallow and Deep Convolutional Networks for Saliency Prediction In Proceedings of the IEEE International Conference on Computer Vision 2016

From scratch

VGG + Fine tuned

124



125




Task B(eg image retrieval)Part II Off-The-Shelf features (OTS)


126Razavian Ali Hossein Azizpour Josephine Sullivan and Stefan Carlsson CNN features off-the-shelf an astounding baseline for recognition CVPRW 2014

Off-The-Shelf (OTS) Features

Intermediate features can be used as regular visual descriptors for any task

127


Babenko Artem et al Neural codes for image retrieval Computer VisionndashECCV 2014

128

OTS Classification Razavian

Razavian Ali Hossein Azizpour Josephine Sullivan and Stefan Carlsson CNN features off-the-shelf an astounding baseline for recognition CVPRW 2014

Pascal VOC 2007

129

OTS Classification Return of devil

Chatfield K Simonyan K Vedaldi A and Zisserman A Return of the devil in the details Delving deep into convolutional nets BMVC 2014

ClassifierL2-normalization

Accuracy+5

Three representative architectures considered

AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)

NVIDIA GTX Titan GPU

130



F

C

131

OTS Classification Return of devilData augmentation


132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133



Dimensionality reduction by retraining the last layer to smaller sizes

Accuracy-2

Sizex32

134



Ranking

Summary of the paper by Amaia Salvador on Bitsearch

Babenko Artem et al Neural codes for image retrieval Computer VisionndashECCV 2014 Springer International Publishing 2014 584-599

135

OTS Retrieval

Oxford Buildings Inria Holidays UKB

136

OTS Retrieval

Pooled from the network from Krizhevsky et al pretrained with images from ImageNet

137

OTS Retrieval FC layers



Off-the-shelf CNN descriptors from fully connected layers show useful but not superior (wrt FV VLAD Sparse Coding)

138Babenko Artem et al Neural codes for image retrieval Computer VisionndashECCV 2014


Razavian et al A baseline for visual instance retrieval with deep convolutional networks ICLR 2015139

Convolutional layers have shown better performance than fully connected ones

OTS Retrieval Conv layers



Spatial Search (extract N local descriptor from predefined locations) increases performance at computational cost

Medium memory footprints



142

OTS Summarization

Bolantildeos M Mestre R Talavera E Giroacute-i-Nieto X Radeva P Visual Summary of Egocentric Photostreams by Representative Keyframes In IEEE International Workshop on Wearable and Ego-vision Systems for Augmented Experience (WEsAX) 2015 Turin Italy 2015

Clustering based on Euclidean distance over FC7 features from AlexNet

143

Thank you

httpsimatgeupceduwebpeoplexavier-giro

httpstwittercomDocXavi

httpswwwfacebookcomProfessorXavi

xaviergiroupcedu


2

Densely linked slides

3



4

Acknowledgments

5

Acknowledgments


6



Video (2D+T)


7



Video (2D+T)



Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


3



4

Acknowledgments

5

Acknowledgments


6



Video (2D+T)


7



Video (2D+T)



Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


4

Acknowledgments

5

Acknowledgments


6



Video (2D+T)


7



Video (2D+T)



Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


5

Acknowledgments


6



Video (2D+T)


7



Video (2D+T)



Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



6



Video (2D+T)


7



Video (2D+T)



Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



7



Video (2D+T)



Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




Dog


Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



Dog




10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



10

Dog



11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


11





12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


12






13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


13







14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



14


New ImageAutomatic

classification

Training

Test

Anchor


15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



15



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



16




17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



17




18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



18



19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


19



20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


20





21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


21






Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




Predict 5 classes



-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




-98





Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




Orange












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu












30


f(x) = max(0x)



31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


31

Dot Product






32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu





32



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



33






34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




34



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



Dec

onvN

etC

onvN

et

35


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


36


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


37


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


38



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



39


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


40



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



41


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


XX


42



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



XX

XX

43



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



XX

XX

44


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


45




46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


46


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


47


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


48






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu






51




52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


52




53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


53




Chicago


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


54


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


55




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




-5


56




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




-5


57


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


E2E Classification

58




60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu





60




61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



61


Solution

Sparsity

How

Inception modules


62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



62






65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu







65



66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


66




67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


67





68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



68





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu





70



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



71




72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



72










77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu











77



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



78



E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


E2E Classification

79





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu





81





82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



82





84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu




84



85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


85



Crowdsourcing

Yes

No



86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


86

Annotation Problems














ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu











ResNet

9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


9090


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


91

92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


92

What have you seen

93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


93

Tower

94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


94

Tower House

95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


95

Tower House

Rocks

96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


96

E2E Saliency


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


97



E2E Saliency

98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


98



99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


99



100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


100


10000 5000 5000

6000 926 2000

CAT2000 [Borjirsquo15] 2000 - 2000




101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


101


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


102

Upsample + filter

2D map

96x96 2340=48x48

IMAGE INPUT(RGB)


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


103

Upsample + filter

2D map

96x96 2340=48x48

3 CONV LAYERS


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


104

Upsample + filter

2D map

96x96 2340=48x48

2 DENSE LAYERS


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


105

Upsample + filter

2D map

96x96 2340=48x48


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


106


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


107




Mini batch size 128




GPU NVidia GTX 980



108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


108





109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


109




110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


110




111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


111




112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


112




113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


113




114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


114




115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


115



116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


116


Domain BFine-tuned






Transfer


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


117

E2E Fine-tuning



118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


118

E2E Fine-tuning



119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


119


CNN


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


120






121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


121


ChaLearn Workshop


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


122

VGG + Fine tuned


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


123



From scratch

VGG + Fine tuned

124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


124



125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


125









127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu





127



128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


128



Pascal VOC 2007

129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


129




Accuracy+5


AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



AlexNet

ZF

OverFeat

5 days (fast)

3 weeks (slow)


130



F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


F

C

131



132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


132


Fisher Kernels

(FK)

ConvNets (CNN)

Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


Color

Gray Scale (GS)

Accuracy-25

133




Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



Accuracy-2

Sizex32

134



Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu


Ranking



135

OTS Retrieval


136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



136

OTS Retrieval


137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu



137
















142

OTS Summarization



143

Thank you




xaviergiroupcedu














142

OTS Summarization



143

Thank you




xaviergiroupcedu


143

Thank you




xaviergiroupcedu


deep learning for computer vision (1/4): image analytics @ lasalle 2016

Technology