Marcelo Finger Alan Barzilay
Tipos de palavras (word types):
Ex. {o, menino, viu, vizinho}
Ocorrências são instanciações de tipos de palavras
Depende de:
Â
Os problemas podem ser compostos
Conjunto de textos/áudios/vÃdeos. Vários tipos:
Entrada: "Mais vale um asno que me carregue que um cavalo
que me derrube"
SaÃda: [ "Mais", "vale", "um", "asno", "que", "me", "carregue", "que", "um", "cavalo", "que", "me", "derrube"]
Entrada:
<ADV>Mais</ADV> vale um asno <REL>que</REL> me carregue <CONJS>que</CONJS> um cavalo <REL>que<REL> me derrube"
SaÃda:
"Mais vale um asno que me carregue que um cavalo que me derrube"SaÃda:
[ "Mais", "vale", "um", "asno", "que", "me", "carregue", "que", "um", "cavalo", "que", "me", "derrube"] + entradas em um BD lembrando das etiquetasEx: Formato XML de etiquetas morfossintáticas
É um problema contextual e dependente da lÃngua.
Influencia o processo de tokenização de textos
Nem todos os pontos (".") finalizam um perÃodo:
Dependente de lÃngua, de contexto, de mÃdia.
Â
Quantas sentenças há no texto a seguir?
Â
Existem muitas coisas que deixam, louco um prof. de Ling. Comp. Mas as três mais irritantes: 1. frases sem verbo; 2. coisas incompletas.
Dependente da lÃngua e da aplicação