Parte 05: Avaliação
Marcelo Finger Alan Barzilay
\(p_1\) está para \(p_2\) assim como \(p_3\) está para \(x\)
\(p_1\) está para \(p_2\) assim como \(p_3\) está para \(x\)
Â
O método desvela o sexismo e o racismo escondidos nos dados!
Livro: Armas de Destruição Matemática (Cathy O'Neil)
Muitos aplicativos de PLN empregam word2vec
Â
Implementamos o word2vec em português, usando o TensorFlow do Google: https://github.com/LIAMF-USP/Word2vec-pt
Â
Foi utilizado para Reconhecimento de Entidades Mencionadas/Named Entity Recognition (NER)
Baseado na ideia de que um embeddig deve capturar as probabilidades relativas das palavras.
Â
\(P (k | i) \): probabilidade da palavra \(k \) co-ocorrer com a palavra \(i \).
Construir vetores de palavras \(p \):
\[p_i ^ \top \cdot p_k = \log P (k | i) = \log (Contagem (k, i)) - \log (Contagem (i))\]
Â
Treinado com 6 bilhões de palavras em inglês
Â