Marcelo Finger Alan Barzilay
Gradiente não fica saturado como \(tanh(x)\)
Conecte tudo com tudo
Também conhecidas como Skip-Connections.
São utilizadas no modelo Transformer
Normalizar ajuda a impedir que as ativações saturem ao confiná-las em uma região.
Â
Uma inicialização muito baixa nos leva a vanishing gradient e uma inicialização muito grande nos leva a exploding gradient.
Como podemos inicializar os pesos de uma maneira apropriada?