出现原因:CNN不能解决图像放大缩小和旋转的问题(即数据增强问题)

Spatial Transformer Layer是在CNN前又叠了一个Neuron Network

它不仅可以transform input layer,也可以被放在CNN里面,transform feature map

那么如何寻找weight呢?

放大缩小:

旋转:

如果只旋转、平移、缩放的话,只需要六个参数

例子如下:

但我们不能直接设为最近的点,因为无法微分,gradient为0,所以我们使用双线性插值,这样就构成连续函数