6章 - 学習に関するテクニック

勾配法の種類

特定の訓練データにだけ適応しすぎてしまい、訓練データに含まれないデータにはうまく対応できない状態。
訓練データが少なかったり、パラメータが大量で表現力の高いモデル（隠れ層のノードが多い）場合に発生しやすい。
過学習を避けるためには重みパラメータを抑制するためにWeigt Decay(荷重減衰)または、Dropoutを使用する。
Weight Decayは損失関数に対して重みの1.2ノルムを加算する。（ただしハイパーパラメータの設定が必要）
Dropoutはニューロンをランダムに消去しながら学習を行う。
ハイパーパラメータを適正な値に設定するには検証データを使用する。
テストデータをもとにしてハイパーパラメータを設定するのはNG。テストデータのみに適したハイパーパラメータになってしまうため。
検証データを用意する最も簡単な方法は訓練データの20%を分離して使用すること。
最適なハイパーパラメータを求めるには、ハイパーパラメータの範囲を定め、その範囲の中からランダムにサンプリングし、認識精度の評価を行う。それを数回繰り返して最適な値を狭めていく。