Parte 01: O Problema
Marcelo Finger Alan Barzilay
Tokenizar um texto é quebrar ele em elementos menores, em peças (tokens) com as quais podemos trabalhar e atribuir significado.
Â
from tensorflow.keras import layers
layers.experimental.preprocessing.TextVectorization(
max_tokens=None,
standardize=LOWER_AND_STRIP_PUNCTUATION,
split=SPLIT_ON_WHITESPACE,
ngrams=None,
output_mode="int",
output_sequence_length=None,
pad_to_max_tokens=True,
**kwargs
)
Transforma cada token em um Ãndice numérico.
Sentença -> vetor
Redes Neurais não entendem letras, apenas números
ASCII e UTF-8 não carregam nenhum significado sobre palavras, frases ou contexto.
Como podemos representar texto de uma maneira que carregue informação?
Â
Eu gosto de batata
Â
Â
Cada palavra/token é representada por um vetor de dimensão igual ao vocabulário.Â
Eu
[1,0,0,0]
gosto
[0,1,0,0]
de
[0,0,1,0]
batata
[0,0,0,1]
from tensorflow.keras import layers
layers.experimental.preprocessing.TextVectorization(
max_tokens=None,
standardize=LOWER_AND_STRIP_PUNCTUATION,
split=SPLIT_ON_WHITESPACE,
ngrams=None,
output_mode="int",
output_sequence_length=None,
pad_to_max_tokens=True,
**kwargs
)