Marcelo Finger Alan Barzilay
Utilizando um modelo chegamos em uma previsão ŷ, como saber se esta é uma boa previsão?
Â
No aprendizado supervisionado, há dados de treinamento \((x_1,y_i), \ldots, (x_n, y_n)\)
A função custo é responsável por quantificar o quão distante nossa previsão esta do valor esperado, quanto maior o custo, pior a previsão.
Logo, a otimização de nosso modelo pode ser formulada como uma minimização da função custo.
\(Loss = f(\hat{y},y)\)
Uma estratégia comum é caminhar no sentido contrario ao do gradiente para encontrar um mÃnimo da função custo:
Essa estratégia é conhecida como gradiente descendente
Â
\(\alpha\): taxa de aprendizado
A funcão custo nem sempre é convexa, podemos encontrar um mÃnimo local ao invés de um mÃnimo global
O algoritmo de backpropagation pode ser dividido em 3 partes:
Cálculo da loss(\(\hat{y},y\))
passo para frente
passo para trás
Quando propagamos para trás o gradiente do custo, nós nos utilizamos da regra da cadeia para percorrer a rede
Uma rede de Tensores é automaticamente construÃda para ser usada na atualização dos pesos durante o treinamento