-
Notifications
You must be signed in to change notification settings - Fork 188
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
咨询论文中的公式 #31
Comments
|
了解了,谢谢 |
您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢 |
你好,这里是写错了,应该是δB的平方,两个都代表方差。 |
您好,我有两个问题想问一下,①公式11下方,为什么可以直接取 |
你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差 |
明白了,谢谢! |
您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢 |
sqrt(π/2)....的形式为计算有误,请参考正确的版本 |
請問哪裡可以找到有正確公式的版本的論文呢? 謝謝 |
1)想问一下论文3.3节中公式(9) 那条计算addnet输出方差的公式,公式的第一行是怎么推到 (1-2/π)... 这一行的呢
2)还是3.3节,公式(11) ,想问下损失对于xi的偏导这条公式是怎么得来的
3)3.3节公式(13) 本地学习率α的公式,为什么α采用这种形式就能够使各层以相同的步数更新呢
谢谢
The text was updated successfully, but these errors were encountered: