Marcelo Finger Alan Barzilay
Ao trabalharmos com redes convencionais, não fornecemos nenhuma informação sobre ordem ou sequência dos tokens.
Mas sabemos que o contexto em que as palavras ocorrem em uma frase influencia no seu significado.
Ao invés de utilizarmos camadas sequenciais que recebem uma frase inteira de uma vez podemos criar redes que recebem uma palavra por vez e se “realimentam” a cada nova palavra.
Deixamos de necessitar padding e conseguimos fornecer informação posicional sobre cada palavra através da própria arquitetura da rede.
Cada iteração é independente.
Facilmente paralelizável.
Alimentamos toda uma sequência de tokens de uma vez.
Cada iteração depende da anterior.
Sequencial por natureza, menor oportunidade de paralelização.
Alimentamos um token de cada vez de maneira sequencial