出现原因:CNN不能解决图像放大缩小和旋转的问题(即数据增强问题)
Spatial Transformer Layer是在CNN前又叠了一个Neuron Network
它不仅可以transform input layer,也可以被放在CNN里面,transform feature map
那么如何寻找weight呢?
放大缩小:
旋转:
如果只旋转、平移、缩放的话,只需要六个参数
例子如下:
但我们不能直接设为最近的点,因为无法微分,gradient为0,所以我们使用双线性插值,这样就构成连续函数