论文链接
http://arxiv.org/abs/1605.06431
这篇文章分析了ResNet在层数不断加深的情况下仍然能够获得和好的效果,究竟是偶然现象还是必然的?
文中认为,ResNet是许多路径的集合,而不是简单的神经网络。ResNet网络中数据流所经过的路径,长度有所不同。路径的长度服从二项分布。换句话说,110层的ResNet实际上大约只相当于55层深。虽然增加更多的层能够使ResNet获得更好的效果,但是有效的路径相对来说是较浅的。文中得出的结论是:ResNet并不是通过保留贯穿整个网络的梯度流来解决梯度消失的问题,而是缩短了有效路径。
文章主要的贡献为:
揭示了ResNet可以看成是许多路径的集合,而不是特简单的特深网络。
验证了ResNet中的路径并不具有很强的相互依赖性。
研究了ResNet中的梯度流,证明只有较短的路径才对训练中的梯度有影响。较长的路径在训练中并不需要。
文中分别为ResNet和Vgg16作了测试,删除了网络中的一些层,如图所示。(在测试时)删除ResNet中的一些层相当于将一半的路径置0,因此对结果几乎没有影响,但是删除Vgg等网络中的层会阻断了从输入到输出的路径,所以会对结果造成很大的影响。因此认为ResNet起到了一种ensemble的效果。