Parte 01: O Modelo Básico
Marcelo Finger Alan Barzilay
\[banana \longrightarrow \left\langle v_1, \ldots, v_N\right\rangle, v_i \in \mathbb{Q}\]
Uma palavra é conhecida pela companhia que mantém (J.R. Firth, 1957)
A tarefa é predizer o vetor da palavra-foco dado um contexto de palavras:
Â
O primeiro rei de Portugal nasceu em ...
Â
Observação: (rei, primeiro)
            (entrada, saÃda)
            (contexto, foco)
            (\(w_e\), \(w_s\))
Dado um córpus, escolher:
Duas matrizes \(W\) (\(m \times n\)) e \(W'\) (\(n \times m\)) para criar duas representações associadas a uma palavra \(p\):
Â
A representação final da palavra \(p\) será \(w_p\)
Deep Learning sem ativação com profundidade 2 (na verdade 1,5) !
Representação one-hot é um vetor de bits com apenas um bit-1; todos os outros bits são 0:
\[\langle 0, \cdots, 0 , 1 , 0 , \cdots, 0 \rangle\]
A função softmax é uma distribuição de probabilidade sobre os elementos de um vetor \(z\):
\[P(z_j) = \frac{e^{z_j}}{ \sum_{i=1}^N e^{z_i}} \in [0,1], \qquad z_j \in \mathbb{Q}\]
A entropia-cruzada de distribuições \(p\) (original) e \(q\) (estimada):
\[ CE(p,q) = -\sum_i p_i \log q_i \]