吴恩达《深度学习》第二门课(3)超参数调试、Batch正则化和程序框架

  • 时间:
  • 浏览:1
  • 来源:大发5分11选5_大发5分11选5官网

(5)在取值微小变化会带来巨大结果不同的地方(β在0.9990到0.9995敏感度就比0.9到0.9005高)即灵敏度高,前要去更多更密集的值,这也不为那些要选择最少的标尺。

(2)厚度愿因:当怎么让学的x到y的映射,怎么让当x的分布处在变化是,该映射将前要重新学习,这里的x还都能不能 理解成后面 的某一隐藏层,x的分布是受到它前面层参数的影响的,为了时x的分布尽量不受到影响(原先x到y的映射还都能不能 尽量少做调整),也不加入了归一化,原先x的均值还都能不能 始终固定为β,方差固定为α。原先即使x值会处在变化,怎么让其分布是不变的(怎么让说变得更少),原先一来减弱了前层参数对后层参数的影响,互相之间相对较独立,更有有助于于各层之间学习我每每各人的映射,原先有有助于于加速网络的训练。如下图中框选出来的后面 层它的值受前面参数影响,一并又是后层的输入,归一化保证了该层的分布不变性。

(1)softmax激活函数常用于多分类问題的最后一层作为激活函数,它将最后一层算出来的z[L]取幂函数,怎么让求和,最后再把每个单元取幂函数时候 都分别除以求和,得到每每各人的概率输出。如下所示

(1)不同超参数调试的优先级是不一样的,如下图中的许多超参数,首先最重要的应该是学习率α(红色圈出),怎么让是Momentum算法的β、隐藏层单元数、mini-batch size(黄色圈出)、再时候 是Layer、learning rate decay(紫色圈出)、最后是Adam算法中的β1、β2、ε。

(3)一般状况下都有对z(即激活函数时候 )进行归一化的。

也不损失函数复杂为:

(1)训练时mini-batch有样原先计算均值和方差,如下式子(式子中的m是mini-batch size):

(1)浅层的理解还都能不能 按照时候 提到的,把输入价值形式归一化时候 ,还都能不能 加快训练的思路来理解每一层归一化的作用。

如四分类器中样本标签(左边)和预测值(右边)如下:

(1)给一4个多TensorFlow的简单使用案例:

(2)用随机取值代替网格点取值。下图左边是网格点取值,怎么让二维参数中,一4个多参数调试的影响有点儿小,没了实在取了2还还有一个点,实在只最少取了还还有一个不同的点;而右图中随机取值取了有几次个点就代表有有几次不同值的点。

(4)指数加权平均的超参数β取值范围是[0.9,0.999],其法子是:1-β=[0.1,0.001],怎么让再根据学习率提到的用对数坐标来随机取值。

(1)随机取值并都有在取值范围内随机均匀取值,也不要选择最少的标尺来随机取值。

(1)计算过程如下图所示(总共包括还还有一个式子):

(2)代价函数:

(1)当计算资源少的时候 ,没了一4个多模型慢慢调参,悉心照顾,当计算资源富于时,还都能不能 模型一并选择不同参数进行训练,怎么让找出最优的。如下图所示

(3)由粗糙到精细的取值,先粗糙取值,怎么让发现最好的点,再在一种点附过进行精细的取值。如下图所示

(1)使用以下公式来进行更新参数,其中原先的b怎么让还都能不能 加上,怎么让不管是有几次都有在归一化中被消除,怎么让用新的参数β替代(此处的β是归一化时的参数,都有优化算法中的β):

除了以上的一种更新法子之外,也还都能不能 用许多优化算法进行更新。

(2)案例1:在选择网络层数时,其范围是[2,4],没了直接均匀取值2,3,4都有合理的。

(2)怎么让在测试集时,是一4个多一4个多进行测试的,一4个多样本求均值和方差是没了意义的。也不使用的到法子也不:在训练是每一4个多批次获得对应的均值和方差,怎么让用时候 提到的指数加权平均来实时获得最新的均值和方差给测试时来用(当然还有许多估算均值和方差的法子)。有了均值和方差时候 ,测试数据就还都能不能 按照后面 的式子进行归一化了,使用的β、γ是训练出来的。

(2)价值形式输入归一化时候 均值为0,方差为1,怎么让对隐藏层的归一化而言,她的均值和方差是空调的,即通过γ、β一4个多超参数调整。固然不希望都有均值为0,方差为1,怎么让那样语录怎么让都集中再激活函数的线性区域,愿因怎么让没了得到任意我我应该 的值。如下图所示

(3)案例2:怎么让在给学习率取值时,其范围是[0.0001,1],怎么让均匀取值,怎么让有90%的点落在0.1到1之间,这时不合理的;此时应该用对数坐标0.0001=10-4,1=100,也不应该是在[-4,0]上随机均匀取值作为r,怎么让10r作为学习率α。如下图所示

(1)分类器的损失函数(一4个多样本):

(1)许多常见的厚度学习框架