Parte 02: Detalhando o Modelo Básico
Marcelo Finger Alan Barzilay
Dados (\(x_{e}\), \(x_{s}\)) one-hot de (\(p_{e}\), \(p_{s}\)) e \(x=x_{e}\), \(x'=x_s\):
\[h_i = \sum_{k=1}^{m}w_{k,i} x_{k},  i = 1, \dots, n  ~\Longrightarrow~~~ h = W \cdot x\]
\[u_j = \sum_{\ell=1}^{n} w'_{\ell,j} h_{\ell},  j = 1, \dots, m ~\Longrightarrow~~~ u = W' \cdot h\]
\[y_j = P(p_{j}|p_{e}) = \frac{\exp(u_j)}{\sum_{k=1}^{m} \exp(u_{k})}, j = 1, \dots, m ~\Longrightarrow y = Softmax(u)\]
\[\lambda = CE(x',y) = -\sum_{k=1}^{m} {x'}_k \log(y_k)\]
Pelo formato 1-hot de  \(x\) e \(x'\):
\[h = w_{e}\]
\[u = W' \cdot w_{e} \]
\[y_j =\frac{\exp(u_j)}{\sum_{k=1}^{m} \exp(u_{k})} \]
\[\lambda = - u_{s} + \log \left(\sum_{k=1}^{m} \exp (u_{k})\right)\]
Â
 onde \(s\) é o Ãndice de \(p_{s}\), \(e\) é o Ãndice de \(p_{e}\) e \(j\) é o Ãndice de \(p_{j}\).Â
Por retropopagação, \(W'\) é atualizada:
\[{w_{ij}^{\prime}}^{(new)} = {w_{ij}^{\prime}}^{(old)} - \alpha \, \varepsilon_{j} \, h_{i}\]
Em notação vetorial
\[{W^{\prime}}^{(new)} = {W^{\prime}}^{(old)} - \alpha \, \varepsilon \, h^T\]
Â
onde \(\varepsilon=y -x_{s}\)
E a matriz \(W\) também é atualizada notação matricial:
\[W^{(new)} = W^{(old)} - \alpha DW'\]
Â
para \(D\) Â uma matriz diagonal onde \(d_{ii} = y_i\) quando \(i \neq s\) e \(d_{ss} = y_s -1\)
\(d_{ij} = 0\) para \(i \neq j\)
Repita este processo com exemplos do córpus, o efeito se acumula e como resultado palavras com contextos semelhantes ficarão próximas umas das outras.
O modelo captura as estatÃsticas de coocorrência usando a distância do cosseno