Parte 03: Modelo CBOW Completo
Marcelo Finger Alan Barzilay
A partir de uma janela arbitrária de tamanho C, construímos observações como ([pe1,…,peC],ps).
Por exemplo, para C=4:
Nunca me acostumei com o cantor dessa banda, e nem ...
([com, o, dessa, banda], cantor)
x=xpe1+⋯+xpeC
h=C1(W⋅x)
u=W′⋅h
yj=P(pj∣pe1,…,peC)=∑k=1mexp(uk)exp(uj)
λ=CE(u,y)=−us+log(k=1∑mexp(uk))
O cálculo de λ é computacionalmente caro pois m é muito grande
W′(new)=W′(old)−αλhT
W(new)=W(old)−CαDW′
onde D é a matriz diagonal com dii=yi,i=s e dss=ys−1.
O cálculo da função softmax é muito caro para cada entrada do treinamento:
yj=∑k=1mexp(uk)exp(uj)
Técnicas de PLN (probabilísticas) se fazem necessárias. Duas alternativas que aproximam y, e otimizam o tempo