Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

咨询论文中的公式 #31

Open
Zhuyan98520 opened this issue Oct 8, 2020 · 10 comments
Open

咨询论文中的公式 #31

Zhuyan98520 opened this issue Oct 8, 2020 · 10 comments

Comments

@Zhuyan98520
Copy link

1)想问一下论文3.3节中公式(9) 那条计算addnet输出方差的公式,公式的第一行是怎么推到 (1-2/π)... 这一行的呢
2)还是3.3节,公式(11) ,想问下损失对于xi的偏导这条公式是怎么得来的
3)3.3节公式(13) 本地学习率α的公式,为什么α采用这种形式就能够使各层以相同的步数更新呢
谢谢

@HantingChen
Copy link
Collaborator

  1. 标准正态分布的绝对值方差为(1-2/π)
  2. 见batch normalization原论文
  3. 这种学习率使得每层的梯度的量级相同,所以更新步长也基本可以看作相同的。

@Zhuyan98520
Copy link
Author

了解了,谢谢

@Zhuyan98520
Copy link
Author

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

@HantingChen
Copy link
Collaborator

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

@Lg955
Copy link

Lg955 commented May 13, 2021

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?

@HantingChen
Copy link
Collaborator

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?

你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y

X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差

@Lg955
Copy link

Lg955 commented May 17, 2021

您好,还想问下公式(9)中求出的是输出特征的方差Var(Y),公式(11)中用到的δB是特征的方差开平方,即标准差,可是文中公式(11)的下一行却说取Var(Y)=δB,这里是为什么?为什么要给Var(Y)取mini-batch的标准差呢?谢谢

你好,这里是写错了,应该是δB的平方,两个都代表方差。

您好,我有两个问题想问一下,①公式11下方,为什么可以直接取Var(Y)=δB的平方呢,计算依据是什么?BN层做计算是对X正则,而Var(Y)是|X-F|的方差啊 ②公式9在计算的时候,是X和F各自符合的正态分布的方差是什么,是N(0,1)吗,还是说X-F整体符合N(0,1)呢?

你好,这里的符号可能不是很清楚,这里的x是bn层的输入,其实就是conv层输出的Y

X和F的方差可以是任意的值,这里只是为了说明加法网络Y的方差会大于X的方差

明白了,谢谢!

@Zhaozixiang1228
Copy link

您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢

@HantingChen
Copy link
Collaborator

您好,我可以理解公式(9) 计算addnet输出方差的公式 (1-2/π)...,但是在其他版本中为什么会变成sqrt(π/2)....的形式呢?希望得到您的指点,谢谢

sqrt(π/2)....的形式为计算有误,请参考正确的版本

@kerkathy
Copy link

請問哪裡可以找到有正確公式的版本的論文呢? 謝謝

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants