讨论：前向计算w做了归一化，而反向传播更新w的时候，是按照归一化前来计算梯度，是否会导致收敛困难？ #29

xialuxi · 2019-06-05T08:11:54Z

No description provided.

xialuxi · 2019-06-10T05:57:54Z

1、我增加w的norm操作的反向传播，训练速度变慢了很多（原来的1/5左右），收敛同样慢，而且容易出现跑飞的现场。
2、就目前的实验结果，貌似w做了归一化，反向传播不计算，反而更好一点（计算量少了很多）。

wu-ruijie · 2019-12-03T04:00:06Z

我也做了w的norm操作的反向传播，发现效果还不如不做，另外传播更新w的时候采用归一化前的w或者归一化后的w，跑了一段时间发现没有差别。
ps：w的norm操作的反向传播的代码作者能贴出来吗？我想参考一下我是否写的有问题，非常感谢！

Provide feedback