Word2vec

Parte 05: Avaliação

Marcelo Finger
Alan Barzilay

Tópicos

  • O Modelo Básico
  • Detalhamento Formal
  • Modelo CBOW Completo
  • Otimizações no Modelo CBOW
  • Formas de Avaliar o Word2vec
  • Outro Embeddings Pré-treinados

Avaliação Intrínseca

\(p_1\) está para \(p_2\) assim como \(p_3\) está para \(x\)

  • \(p_1\) = França, \(p_2\) = Paris, \(p_3\) = Japão; \(x\) = Tóquio
  • \(p_1\) = homem, \(p_2\) = rei, \(p_3\) = mulher; \(x\) = rainha

 Problemas Intrínsecos

\(p_1\) está para \(p_2\) assim como \(p_3\) está para \(x\)

  • \(p_1\) = branco \(p_2\) = bonito, \(p_3\) = feio; \(x\) = negro
  • \(p_1\) = homem, \(p_2\) = gerente, \(p_3\) = mulher; \(x\) = secretária

 

O método desvela o sexismo e o racismo escondidos nos dados!

Livro: Armas de Destruição Matemática (Cathy O'Neil)

Muitos aplicativos de PLN empregam word2vec
 

Implementamos o word2vec em português, usando o TensorFlow do Google: https://github.com/LIAMF-USP/Word2vec-pt

 

Foi utilizado para Reconhecimento de Entidades Mencionadas/Named Entity Recognition (NER)

Avaliação Extrínseca

Tópicos

  • O Modelo Básico
  • Detalhamento Formal
  • Modelo CBOW Completo
  • Otimizações no Modelo CBOW
  • Formas de Avaliar o Word2vec
  • Outro Embeddings Pré-treinados

Baseado na ideia de que um embeddig deve capturar as probabilidades relativas das palavras.

 

\(P (k | i) \): probabilidade da palavra \(k \) co-ocorrer com a palavra \(i \).

Construir vetores de palavras \(p \):

\[p_i ^ \top \cdot p_k = \log P (k | i) = \log (Contagem (k, i)) - \log (Contagem (i))\]

 

Treinado com 6 bilhões de palavras em inglês

 

Imagem de um botão estilizado de volta para pagina inicial