Problemas Típicos de PLN

Marcelo Finger
Alan Barzilay

Parte I - Problemas Básicos 1

Preâmbulo

O que são "palavras"?

  • É preciso separar dois conceitos diferentes: ocorrências e
    tipos de palavras
  • Ocorrências de palavras (word tokens):
    Ex. "O", "menino", "viu", "o", "vizinho"
  • Tipos de palavras (word types):
    Ex. {o, menino, viu, vizinho}

  • Ocorrências são instanciações de tipos de palavras

O que são "problemas"?

Depende de:

  • Língua
  • Aplicação
  • Modelo matemático
  • Algoritmo a ser implementado, etc                                                       

 

Os problemas podem ser compostos

O que é "Córpus"?

Córpus, plural córpus

Conjunto de textos/áudios/vídeos.  Vários tipos:

  • Puro (cru)
  • Anotado
  • Paralelo (ex: Inglês-Português)
  • Transcrito (Fala           Texto)

Pré-processamento

Tokenização

  • Entrada: "Mais vale um asno que me carregue que um cavalo
    que me derrube"

  • Saída: [ "Mais", "vale", "um", "asno", "que", "me", "carregue", "que", "um", "cavalo", "que", "me", "derrube"]

Filtragem (E.g. de etiquetas)

  • Entrada:
    <ADV>Mais</ADV> vale um asno <REL>que</REL> me carregue <CONJS>que</CONJS> um cavalo <REL>que<REL> me derrube"

  • Saída:

    "Mais vale um asno que me carregue que um cavalo que me derrube"
  • Saída:

    [ "Mais", "vale", "um", "asno", "que", "me", "carregue", "que", "um", "cavalo", "que", "me", "derrube"] + entradas em um BD lembrando das etiquetas

Ex: Formato XML de etiquetas morfossintáticas

Identificação de Ponto Final

  1. Esse logo depois do 1
  2. Pontos após abreviações: Dr., Jr., Ling. Comp.
  3. Em catalão existem palavras como: intel.ligencia
  4. . Em textos . antigos os pontos aparecem em lugares inesperados

É um problema contextual e dependente da língua.

Influencia o processo de tokenização de textos

Nem todos os pontos (".") finalizam um período:

Expansão de Abreviações

  • Ling. Comp.          Linguísitica Computacional
  • IME          Instituto de Matemática e Estatísica
  • bj em v té+            Beijo em você. Até mais

Dependente de língua, de contexto, de mídia.

 

Separação em Sentenças

Quantas sentenças há no texto a seguir?

 

Existem muitas coisas que deixam, louco um prof. de Ling. Comp.  Mas as três mais irritantes: 1. frases sem verbo; 2. coisas incompletas.

Extração de Stop-words

  • Entrada: E extrair as palavras que não são informação relevante
  • Saída: {extrair, palavras, não, informação, relevante}

Dependente da língua e da aplicação

(palavras muito comuns)

Imagem de um botão estilizado de volta para pagina inicial