Word2vec

Parte 05: Avaliação

Marcelo Finger
Alan Barzilay

Tópicos

\(p_1\) está para \(p_2\) assim como \(p_3\) está para \(x\)

\(p_1\) está para \(p_2\) assim como \(p_3\) está para \(x\)

O método desvela o sexismo e o racismo escondidos nos dados!

Livro: Armas de Destruição Matemática (Cathy O'Neil)

Muitos aplicativos de PLN empregam word2vec

Implementamos o word2vec em português, usando o TensorFlow do Google: https://github.com/LIAMF-USP/Word2vec-pt

Foi utilizado para Reconhecimento de Entidades Mencionadas/Named Entity Recognition (NER)

Baseado na ideia de que um embeddig deve capturar as probabilidades relativas das palavras.

\(P (k | i) \): probabilidade da palavra \(k \) co-ocorrer com a palavra \(i \).

Construir vetores de palavras \(p \):

\[p_i ^ \top \cdot p_k = \log P (k | i) = \log (Contagem (k, i)) - \log (Contagem (i))\]

Treinado com 6 bilhões de palavras em inglês