-
Notifications
You must be signed in to change notification settings - Fork 0
DenseNet
- ์ต๋ํ์ ์ ๋ณด ํ๋ฆ์ ๋ณด์ฅํ๊ธฐ ์ํด์, ๋ชจ๋ layer๋ฅผ ๊ฐ๊ฐ ์ง์ ์ฐ๊ฒฐ
- L(L+1)/2๋ฒ์ direct connections์ด ์ด๋ฃจ์ด์ง
โ๏ธ information preservation
-
ResNet์ identity transformation์ ๋ํด์(summation) later layer๋ก๋ถํฐ early layer๋ก์ gradient flow๊ฐ ์ง์ ์ฐ๊ฒฐ๋๋ค๋ ์ฅ์ ์ด ์์ง๋ง, identity transformation๊ณผ ์ถ๋ ฅย H(xโ1)์ด summation๋จ์ ๋ฐ๋ผ information flow๋ฅผ ๋ฐฉํดํ ์ ์๋ค.
-
gradient๊ฐ ํ๋ฅด๊ฒ ๋๋ค๋ ์ ์ ๋์์ด ๋์ง๋ง, forward pass์์ ๋ณด์กด๋์ด์ผ ํ๋ ์ ๋ณด๋ค์ด summation์ ํตํด ๋ณ๊ฒฝ๋์ด ๋ณด์กด๋์ง ๋ชปํ ์ ์๋ค๋ ์๋ฏธ์ด๋ค. (DenseNet์ concatenation์ ํตํด ๊ทธ๋๋ก ๋ณด์กด)
-
DenseNet์ feature map์ ๊ทธ๋๋ก ๋ณด์กดํ๋ฉด์, feature map์ ์ผ๋ถ๋ฅผ layer์ concatenation โ ๋คํธ์ํฌ์ ๋ํด์ง information๊ณผ ๋ณด์กด๋์ด์ผ ํ information์ ๋ถ๋ฆฌํด์ ์ฒ๋ฆฌ โ information ๋ณด์กด
โ๏ธ improved flow of information and gradient
- ๋ชจ๋ layer๊ฐ ์ด์ ์ ๋ค๋ฅธ layer๋ค๊ณผ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋์ด ์๊ธฐ ๋๋ฌธ์, loss function์ด๋ input signal์ gradient์ ์ง์ ์ ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅ + gradient vanishing์ด ์์ด์ง โ ๋คํธ์ํฌ๋ฅผ ๊น์ ๊ตฌ์กฐ๋ก ๋ง๋๋ ๊ฒ์ด ๊ฐ๋ฅ
โ๏ธ regularizing effect
- ๋ง์ connection์ผ๋ก depth๊ฐ ์งง์์ง๋ ํจ๊ณผ โ regularization ํจ๊ณผ (overfitting ๋ฐฉ์ง)
- ์๋์ ์ผ๋ก ์์ train set์ ์ด์ฉํ์ฌ๋ overfitting ๋ฌธ์ ์์ ์์ ๋ก์
Resdual ๋ธ๋ก: skip connection์ ํตํด์ ์ ๋ฌ๋ x(identity) mapping์ ๋ํจ & ์ง์ ๋ธ๋ก์ ์ ๋ณด ๋ฐ์
Dense ๋ธ๋ก: channel ์ถ ๊ธฐ์ค์ผ๋ก concatenation & ์ง์ ๋ธ๋ก/ํจ์ฌ ์ด์ ๋ธ๋ก์ ์ ๋ณด๋ ๋๊ฒจ๋ฐ์
resdual ๋ธ๋ก์์์ + vs. Dense ๋ธ๋ก์์์ concatenation
- summation(+) ์ฐ์ฐ: ๋ ์ ํธ๋ฅผ ํฉ์นจ
- concatenation ์ฐ์ฐ: (channel์ ๋์ด๋์ง๋ง) ์ ํธ๊ฐ ๋ณด์กด๋์ด์์. ๋ฐ๋ผ์ ํ์ ์ ๋ณด ์ด์ฉ์ ์ฉ์ด
Dense Connectivity
- ResNet์ gradient๊ฐ identity function์ ํตํด ์ง์ earlier layer์์ later layer๋ก ํ๋ฅผ ์ ์์ผ๋, identity function๊ณผ output์ ๋ํ๋(summation) ๊ณผ์ ์์ information flow๋ฅผ ๋ฐฉํดํ ์ ์์ โ L๋ฒ์ connections
- DenseNet์ summation์ผ๋ก layer ์ฌ์ด๋ฅผ ์ฐ๊ฒฐํ๋ ๋์ ์, concatenation์ผ๋ก layer ์ฌ์ด๋ฅผ ์ง์ ์ฐ๊ฒฐ โ L(L+1)/2๋ฒ์ connections โ dense connectivity๋ผ์ DenseNet(Dense Convolutional Network)์ผ๋ก ๋ช ๋ช
Pooling layers
-
feature map์ ํฌ๊ธฐ๊ฐ ๋ณ๊ฒฝ๋ ๊ฒฝ์ฐ, concatenation ์ฐ์ฐ์ ์ํํ ์ ์์ (โต ํํํ๊ฒ ํฉ์น๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅ) โ CNN์ down-sampling์ ํ์์ด๋ฏ๋ก, layer๋ง๋ค feature map์ ํฌ๊ธฐ๊ฐ ๋ฌ๋ผ์ง ์ ๋ฐ์ ์์
-
DenseNet์ ๋คํธ์ํฌ ์ ์ฒด๋ฅผ ๋ช ๊ฐ์ dense block์ผ๋ก ๋๋ ์ ๊ฐ์ feature map size๋ฅผ ๊ฐ์ง๋ ๋ ์ด์ด๋ค์ ๊ฐ์ dense block๋ด๋ก ๋ฌถ์
-
์ ๊ทธ๋ฆผ์์๋ ์ด 3๊ฐ์ dense block์ผ๋ก ๋๋
-
๊ฐ์ ๋ธ๋ญ ๋ด์ ๋ ์ด์ด๋ค์ ์ ๋ถ ๊ฐ์ feature map size๋ฅผ ๊ฐ์ง โ concatenation ์ฐ์ฐ ๊ฐ๋ฅ
-
transition layer(๋นจ๊ฐ ๋ค๋ชจ๋ฅผ ์น pooling๊ณผ convolution ๋ถ๋ถ) โ down-sampling ๊ฐ๋ฅ
- Batch Normalization(BN)
- 1ร1ย convolution โ feature map์ ๊ฐ์(= channel ๊ฐ์)๋ฅผ ์ค์
- 2ร2ย average pooling โ feature map์ ๊ฐ๋ก/์ธ๋ก ํฌ๊ธฐ๋ฅผ ์ค์
-
ex. dense block1์์ 100x100 size์ feature map์ ๊ฐ์ง๊ณ ์์๋ค๋ฉด dense block2์์๋ 50x50 size์ feature map
-
-
์ ๊ทธ๋ฆผ์์ ๊ฐ์ฅ ์ฒ์์ ์ฌ์ฉ๋๋ convolution ์ฐ์ฐ โ input ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ๋ฅผ dense block์ ๋ง๊ฒ ์กฐ์ ํ๊ธฐ ์ํ ์ฉ๋๋ก ์ฌ์ฉ๋จ โ ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ์ ๋ฐ๋ผ์ ์ฌ์ฉํด๋ ๋๊ณ ์ฌ์ฉํ์ง ์์๋ ๋จ
Bottleneck layers
- output์ feature map ์(= channel ๊ฐ์)๋ฅผ ์กฐ์ ํ๋ย bottleneck layer๋ฅผ ์ฌ์ฉ
- ๋ณธ ๋
ผ๋ฌธ์์ย H()์ bottleneck layer๋ฅผ ์ฌ์ฉํ ๋ชจ๋ธ์ย DenseNet-B๋ก ํ๊ธฐ
- Batch Normย โย ReLUย โย Conv (1ร1)ย โย Batch Normย โย ReLUย โย Conv (3ร3)
- ๋ณธ ๋ ผ๋ฌธ์์, ๊ฐย 1ร1ย Conv๋ย 4k๊ฐ์ feature map์ ์ถ๋ ฅ (๋จ, 4 * growth rate์ย 4๋ฐฐย ๋ผ๋ ์์น๋ hyper-parameter์ด๊ณ ์ด์ ๋ํ ์์ธํ ์ค๋ช ์ ํ๊ณ ์์ง ์์)
- 1x1 convolution โ channel ๊ฐ์ ์ค์ โ ํ์ต์ ์ฌ์ฉ๋๋ 3x3 convolution์ parameter ๊ฐ์ ์ค์
-
ResNet์ย
Bottleneck
ย ๊ตฌ์กฐ๋ฅผ ๋ง๋ค๊ธฐ ์ํด์- 1x1 convolution์ผ๋กย dimension reduction์ ํ ๋ค์ + ๋ค์ย 1x1 convolution์ ์ด์ฉํ์ฌย expansion
-
DenseNet์ย
Bottleneck
ย ๊ตฌ์กฐ๋ฅผ ๋ง๋ค๊ธฐ ์ํด์- 1x1 convolution์ผ๋กย dimension reduction + but, expansion์ ํ์ง ์์
- ๋์ ์ feature๋ค์ย
concatenation
์ ์ด์ฉํ์ฌ expansion ์ฐ์ฐ๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ง๋ฆ- (์๊ฐ) feature๋ค์ concatenation์ผ๋ก ์ฑ๋ ๊ฐ์ expansion โ ex. 6 + 4 + ... + 4
-
(๊ณตํต์ ) 3x3 convolution ์ ์ 1x1 convolution์ ๊ฑฐ์ณ์ input feature map์ channel ๊ฐ์๋ฅผ ์ค์
-
(์ฐจ์ด์ ) ๋ค์ input feature map์ channel ๊ฐ์ ๋งํผ ์์ฑ(ResNet)ํ๋ ๋์ growth rate ๋งํผ์ feature map์ ์์ฑ(DenseNet) โ ์ด๋ฅผ ํตํด computational cost๋ฅผ ์ค์ผ ์ ์์
โ๏ธ Growth rate
-
input์ ์ฑ๋ ๊ฐ์ k_0์ ์ด์ (l-1)๊ฐ์ layer โ H(x) โ output์ผ๋ก, k feature maps (๋จ, k_0 : input layer์ channel ๊ฐ์)
- input : k_0+k*(l-1)
- output : k
-
Growth rate(= hyperparameter k) โ ๊ฐ layer์ feature map์ channel ๊ฐ์
-
๊ฐ feature map๋ผ๋ฆฌ densely connection ๋๋ ๊ตฌ์กฐ์ด๋ฏ๋ก ์์นซ feature map์ channel ๊ฐ์๊ฐ ๋ง์ ๊ฒฝ์ฐ, ๊ณ์ํด์ channel-wise๋ก concatenate ๋๋ฉด์ channel์ด ๋ง์์ง ์ ์์ โ DenseNet์์๋ ๊ฐ layer์ feature map์ channel ๊ฐ์๋ก ์์ ๊ฐ์ ์ฌ์ฉ
-
concatenation ์ฐ์ฐ์ ํ๊ธฐ ์ํด์ ๊ฐ layer ์์์ output ์ด ๋๊ฐ์ channel ๊ฐ์๊ฐ ๋๋ ๊ฒ์ด ์ข์ โ 1x1 convolution์ผ๋ก growth rate ์กฐ์
-
์์ ๊ทธ๋ฆผ 1์ k(growth rate) = 4 ์ธ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธ
- 6 channel feature map์ธ input์ด dense block์ 4๋ฒ์ convolution block์ ํตํด (6 + 4 + 4 + 4 + 4 = 22) ๊ฐ์ channel์ ๊ฐ๋ feature map output์ผ๋ก ๊ณ์ฐ์ด ๋๋ ๊ณผ์
- DenseNet์ ๊ฐ dense block์ ๊ฐ layer๋ง๋ค feature map์ channel ๊ฐ์ ๋ํ ๊ฐ๋จํ ๋ฑ์ฐจ์์ด๋ก ๋ํ๋ผ ์ ์์
-
DenseNet์ ์์ย k๋ฅผ ์ฌ์ฉ โ (๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด) ์ข์ layer๋ก ๊ตฌ์ฑ โ ์ข์ layer๋ก ๊ตฌ์ฑํด๋ DenseNet์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ด์ ?
- Dense block๋ด์์ ๊ฐ layer๋ค์ ๋ชจ๋ preceding feature map์ ์ ๊ทผ ๊ฐ๋ฅ (= ๋คํธ์ํฌ์ โcollective knowledgeโ์ ์ ๊ทผ)
โ (์๊ฐ) preceding feature map = ๋คํธ์ํฌ์ global state - growth rateย k โ ๊ฐ layer๊ฐ global state์ ์ผ๋ง๋ ๋ง์ ์๋ก์ด ์ ๋ณด๋ฅผ contributeํ ๊ฒ์ธ์ง๋ฅผ ์กฐ์
- โ ๋ชจ๋ layer๊ฐ ์ ๊ทผํ ์ ์๋ global state๋ก ์ธํด DenseNet์ย ๊ธฐ์กด์ ๋คํธ์ํฌ๋ค๊ณผ ๊ฐ์ดย layer์ feature map์ ๋ณต์ฌํด์ ๋ค๋ฅธ layer๋ก ๋๊ฒจ์ฃผ๋ ๋ฑ์ ์์ ์ ํ ํ์๊ฐ ์์ (= feature reuse)
- Dense block๋ด์์ ๊ฐ layer๋ค์ ๋ชจ๋ preceding feature map์ ์ ๊ทผ ๊ฐ๋ฅ (= ๋คํธ์ํฌ์ โcollective knowledgeโ์ ์ ๊ทผ)
โ๏ธ Compression
-
Compression์ pooling layer(Transition layer)์ 1x1 Convolution layer ์์ channel ๊ฐ์(= feature map์ ๊ฐ์)๋ฅผ ์ค์ฌ์ฃผ๋ ๋น์จ (hyperparameter ฮธ)
- ๋ณธ ๋ ผ๋ฌธ์์๋ ฮธ=0.5๋ก ์ค์ โ transition layer๋ฅผ ํต๊ณผํ๋ฉด feature map์ ๊ฐ์(channel)์ด ์ ๋ฐ์ผ๋ก ์ค์ด๋ค๊ณ , 2x2 average pooling layer๋ฅผ ํตํด feature map์ ๊ฐ๋ก ์ธ๋ก ํฌ๊ธฐ ๋ํ ์ ๋ฐ์ผ๋ก ์ค์ด๋ฆ
- ฮธ=1๋ก ์ค์ ์ โ feature map์ ๊ฐ์๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉ
1. ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ (gradient vanishing) ์ํ
- ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด DenseNet ๋ํ ResNet ์ฒ๋ผ gradient๋ฅผ ๋ค์ํ ๊ฒฝ๋ก๋ฅผ ํตํด์ ๋ฐ์ ์ ์๊ธฐ ๋๋ฌธ์ ํ์ตํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
2. feature propagation ๊ฐํ
- ์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์๋จ์์ ๋ง๋ค์ด์ง feature๋ฅผ ๊ทธ๋๋ก ๋ค๋ก ์ ๋ฌ์ ํด์ concatenation ํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉ์ ํฉ๋๋ค. ๋ฐ๋ผ์ feature๋ฅผ ๊ณ์ํด์ ๋๋จ ๊น์ง ์ ๋ฌํ๋ ๋ฐ ์ฅ์ ์ด ์์ต๋๋ค.
3. feature reuse
๐ Feature reuse
Feature reuse
-
ํ์ต๋ DenseNet์ ๊ฐ layer๊ฐ ์ค์ ๋ก preceding layer๋ค์ feature map์ ํ์ฉํ๋์ง๋ฅผ ์คํ
- ํ์ตํ ๋คํธ์ํฌ์ ๊ฐ dense block์์, โ๋ฒ์งธ convolution layer์์ s๋ฒ์งธ layer๋ก์ ํ ๋น๋ average absolute weight๋ฅผ ๊ณ์ฐ (absolute๋ ์์ ๊ฐ์ ๊ฐ๋ weight๋ฅผ ๊ณ ๋ คํ ๊ฒ์ผ๋ก ๋ณด์)
-
์ ๊ทธ๋ฆผ์ dense block ๋ด๋ถ์์ convolution layer๋ค์ weight์ ํ๊ท ์ด ์ด๋ป๊ฒ ๋ถํฌ๋์ด์๋์ง ๋ณด์ฌ์ค
-
Pixel (s,โ)์ ์๊น์ dense block ๋ด์ conv layer s์ โ์ ์ฐ๊ฒฐํ๋ weight์ average L1 norm์ผ๋ก ์ธ์ฝ๋ฉ ํ ๊ฒ โ ๊ฐ dense block์ weight๋ค์ด ๊ฐ์ง๋ ๊ทธ ํฌ๊ธฐ ๊ฐ์ 0 ~ 1 ์ฌ์ด ๋ฒ์๋ก normalization ํ ๊ฒฐ๊ณผ
- ๋นจ๊ฐ์์ธ 1์ ๊ฐ๊น์ธ ์๋ก ํฐ ๊ฐ โ ํ๋์์ธ 0์ ๊ฐ๊น์ธ์๋ก ์์ ๊ฐ
-
์คํ ๊ฒฐ๊ณผ
-
๊ฐ layer๋ค์ด ๋์ผํ block ๋ด์ ์๋ preceding layer๋ค์ weight๋ฅผ ๋ถ์ฐ ์ํด (โต ๊ฐ ์ด์์ weight๊ฐ ๊ณจ๊ณ ๋ฃจ spread๋์ด ์์
- โ Dense block ๋ด์์,ย ์ค์ ๋ก later layer๋ early layer์ feature map์ ์ฌ์ฉํ๊ณ ์์
-
Transition layer๋ preceding layer๋ค์ weight๋ฅผ ๋ถ์ฐ ์ํด (โต ๊ฐ์ฅ ์ค๋ฅธ์ชฝ ์ด์์ weight๊ฐ ๊ณจ๊ณ ๋ฃจ spread ๋์ด ์์)
- โ Dense block ๋ด์์,ย 1๋ฒ์งธ layer์์ ๊ฐ์ฅ ๋ง์ง๋ง layer๊น์ง information flow๊ฐ ํ์ฑ๋์ด ์์
-
2, 3๋ฒ์งธ dense block์ transition layer์ output์ ๋งค์ฐ ์ ์ weight๋ฅผ ์ผ๊ด๋๊ฒ ํ ๋น (โต 2, 3๋ฒ์งธ dense block์ ์ฒซ๋ฒ์งธ ํ์์ weight๊ฐ ๊ฑฐ์ 0์ ๊ฐ๊น์)
- โ 2, 3๋ฒ์งธ dense block์ transition layer output์ redundant features๊ฐ ๋ง์์ ๋งค์ฐ ์ ์ weight๋ฅผ ํ ๋น(์ค๋ณต๋ ์ ๋ณด๋ค์ด ๋ง์ ๋ชจ๋ ์ฌ์ฉํ์ง ์์๋ ๋๋ค๋ ์๋ฏธ)
- โ DenseNet-BC์์ compressionย ฮธ๋ก ์ด๋ฌํ redundant feature๋ค์ compressํ๋ ํ์๊ณผ ์ผ์น
- (์๊ฐ) Compression์ pooling layer(Transition layer)์ 1x1 Convolution layer ์์ channel ๊ฐ์(= feature map์ ๊ฐ์)๋ฅผ ์ค์ฌ์ฃผ๋ ๋น์จ (hyperparameter ฮธ)์ด๋ฏ๋ก, ์ค๋ณต๋ ์ ๋ณด๋ค์ด transition layer์์ ์ ๊ฑฐ๋๋ค๋ ์๋ฏธ โ channel ๊ฐ์ ๊ฐ์
-
๋ง์ง๋ง classification layer๋ ์ ์ฒด dense block์ weight๋ฅผ ์ฌ์ฉํ๊ธด ํ์ง๋ง, early layer๋ณด๋ค later layer์ feature map์ ๋ ๋ง์ด ์ฌ์ฉํจ (โต 3๋ฒ์งธ dense block์ ๊ฐ์ฅ ๋ง์ง๋ง ์ด์์ weight๊ฐ ์๋์ชฝ์ผ๋ก ์น์ฐ์ณ ์์)
- โ High-level feature๊ฐ later layer์ ๋ ๋ง์ด ์กด์ฌํจ
-
์ฐธ๊ณ : DenseNet (Densely connected convolution networks) - gaussian37
- ์ ๊ทธ๋ฆผ์ย ๊ฐ source โ target์ผ๋ก propagation๋ weight์ ๊ฐ ๋ถํฌ๋ฅผ ๋ํ๋
- ์ธ๋ก์ถย
Source layer
ย โ layer๊ฐ propagation ํ ๋, ๊ทธ Source์ ํด๋นํ๋ layer๊ฐ ๋ช๋ฒ์งธ layer์ธ ์ง ๋ํ๋ - ๊ฐ๋ก์ถย
Target layer
โ Source์์ ๋ถํฐ ์ ํ๋ layer์ ๋ชฉ์ ์ง๊ฐ ์ด๋์ธ์ง ๋ํ๋ - ex. dense block 1์ ์ธ๋ก์ถ(5), ๊ฐ๋ก์ถ (8)์ ๊ต์ฐจํ๋ ์์ ์ฌ๊ฐํ์ด ์๋ฏธํ๋ ๊ฒ์ dense block 1์์ 5๋ฒ์งธ layer์์ ์์ํ์ฌ 8๋ฒ์งธ layer๋ก propagation ๋ย
weight
- ex. ๊ฐ dense block์ย Source๊ฐ 1์ธ ๋ถ๋ถ๋ค์ ์ดํด ๋ณด๋ฉด ๊ฐ Block์ย ์ฒซ layer์์ ํผ์ณ์ง propagation์ ํด๋น (์ ๊ทธ๋ฆผ์์ ๋นจ๊ฐ์ ๋๊ทธ๋ผ๋ฏธ์ ํด๋นํ๋ ๋ถ๋ถ)
- ex. ๊ฐ dense block์ย Target์ด 12์ธ ๋ถ๋ถ๋ค์ ์ดํด ๋ณด๋ฉดย ๋ค์ํ Source์์ weight๋ค์ด ๋ชจ์ด๊ฒย ๋ ๊ฒ์ ๋ณผ ์ ์์ (์ ๊ทธ๋ฆผ์์ ๋นจ๊ฐ์ ๋๊ทธ๋ผ๋ฏธ์ ํด๋นํ๋ ๋ถ๋ถ)
-
4. parameter ๊ฐ์ ์ค์
1. channel์ด ๋์ด๋จ์ผ๋ก์จ ๋ฉ๋ชจ๋ฆฌ์ computational complexity ์ฆ๊ฐ
๐ Experiments
-
CIFAR
- 32 x 32 pixels
- CIFAR-10 : 10 classes / CIFAR-100 : 100 classes
- training set : 50,000 images / test set : 10,000 images / validations set : 5,000 training images
- data augmentation : mirroring / shifting
- preprocessing : normalize the data using channel means + standard deviations
-
SVHN
- 32 x 32 digit images
- training set : 73,257 images / test set : 26,032 images / validation set : 6,000 images
- additional training set : 531,131 images
-
ImageNet
- training set : 1,2 million images / validation set : 50,000 images
- 1000 classes
- data augmentation + 10-crop/single-crop
- 224 x 224 images
-
stochastic gradient descent (SGD)๋ก train
-
weight decay : 10^{-4}
-
Nesterov momentum : 0.9 without dampening
-
CIFAR, SVHN
- batch size : 64
- 300 or 40 epochs
- learning rate : 0.1 โ training epoch๊ฐ 50%, 75%์ผ ๋ 0.1๋ฐฐ
-
ImageNet
- batch size : 256
- 90 epochs
- learning rate : 0.1 โ 30 epochs, 60 epochs๋ง๋ค 0.1๋ฐฐ
โmomentum : parameter๋ฅผ updateํ ๋, ํ์ฌ gradient์ ๊ณผ๊ฑฐ์ ๋์ ํ๋ gradient๋ฅผ ์ด๋์ ๋ ๋ณด์ ํด์ ๊ณผ๊ฑฐ์ ๋ฐฉํฅ์ ๋ฐ์ํ๋ ๊ฒ
Accuracy
- DenseNet-BC with {L=190, k=40} โ C10+, C100+์ ๋ํด ์ฑ๋ฅ ์ข์
- C10/C100์ ๋ํด, FractalNet with drop path-regularization ๊ณผ ๋น๊ตํด์ error๊ฐ 30% ์ ์
- DenseNet-BC with {L=100, k=24} โ C10, C100, SVHN์ ๋ํด ์ฑ๋ฅ ์ข์
- SVHN์ด ๋น๊ต์ ์ฌ์ด task์ด๊ธฐ ๋๋ฌธ์, ๊น์ ๋ชจ๋ธ์ overfittingํ ์ ์์ด์, DenseNet-BC with {L=250, k=24} ๋ ๋ ์ด์ ์ฑ๋ฅ์ด ๊ฐ์ ๋์ง ์์
Capacity
- compression๊ณผ bottleneck layer๊ฐ ์์ ๋, L๊ณผ k๊ฐ ์ปค์ง์๋ก โ DenseNet์ ์ฑ๋ฅ์ด ์ข์์ง
- ๋ชจ๋ธ์ด ๋ ํฌ๊ณ (k) ๋ ๊น์ด์ง์๋ก(L) ๋ ๋ง๊ณ ํ๋ถํ representation์ ํ์ต ๊ฐ๋ฅ
- paramter ๊ฐ์๊ฐ ๋์ด๋ ์๋ก โ error ์ค์ด๋ฆ
- Error : 5.24%ย โย 4.10%ย โย 3.74%
- Number of parameters : 1.0Mย โย 7.0Mย โย 27.2M
- Overfitting์ด๋ optimization(= parameter update) difficulty๊ฐ ๋ํ๋์ง ์์
Parameter Efficiency
- DenseNet-BC with bottleneck structure + transition layer์์์ ์ฐจ์ ์ถ์(dimension reduction)๋ parameter์ ํจ์จ์ฑ์ ๋์
- FractalNet๊ณผ Wide ResNets๋ 30M parameter์ด๊ณ , 250-layer DenseNet์ 15.3M parameter ์ธ๋ฐ, DenseNet์ ์ฑ๋ฅ์ด ๋ ์ข์
Overfitting
- DenseNet์ overfitting ๋ ๊ฐ๋ฅ์ฑ์ด ์ ์
- DenseNet-BC with bottleneck structure์ compression layer๊ฐ overfitting์ ๋ฐฉ์งํ๋๋ฐ ๋์
-
ResNet-1001๊ณผ DenseNet-BC(L=100,k=12)์ error๋ฅผ ๋น๊ต (๋งจ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ)
- ResNet-1001์ DenseNet-BC์ ๋นํด training loss๋ ๋ ๋ฎ์ง๋ง, test error๋ ๋น์ทํ ๊ฒ์ ์ ์ ์๋๋ฐ, ์ด๋ย DenseNet์ด ResNet๋ณด๋ค overfitting์ด ์ผ์ด๋๋ ๊ฒฝํฅ์ด ๋ ์ ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค
- Table 3(์ผ์ชฝ ํ)์ DenseNet์ ImageNet์์์ single crop, 10-crop validation error
- Figure 3(์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ)๋ DenseNet๊ณผ ResNet์ single crop top-1 validation error๋ฅผ parameter ๊ฐ์์ flops๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ํ๋
- DenseNet-201 with 20M parameters์ 101-layer ResNet with more than 40 parameter๊ฐ ๋น์ทํ ์ฑ๋ฅ
reference
๋
ผ๋ฌธ | https://arxiv.org/abs/1608.06993
์ฐธ๊ณ ์๋ฃ | https://csm-kr.tistory.com/10
Human Pose Estimation
CNN Visualization
Image Generation
Multi-modal Learning