
SamL
(usa XUbuntu)
Enviado em 23/02/2026 - 07:44h
Olá pessoas deste brazil zil zil zil
Estava lendo sobre NLP (natural language processing) nos últimos dias e pude observar o seguinte: que coisa mais ridiculamente simples!
Sabe quando vc digita algo pro chatgpt e ele "sabe" o que deve responder? É basicamente isso ai, só que na realidade ele não sabe de verdade.
Vou tentar explicar como é o esquema geral do NLP. Vamos supor o seguinte, vc tenha uma base gigantesca de frases em português brasileiro e tudo (roubado) pego dos seus usuário assim como faz google e facebook. Então, vc separa cada palavra em tokens e define um número para ele, dai cada token vc verifica qual é o atual e quais são os próximo e treina uma IA boboca que apenas diz a porcentagem que o próximo token pode ser e ai vc escolhe o token com maior porcentagem até que o de maior porcentagem seja o token fim de frase.
Exemplo prático:
1--pego uma base de dados de frases
2--separo cada palavra da frase e atribuo um valor qualquer para cada palavra, tipo vetor de token onde cada elemento é um {token:string, id:number}
3--então, usando um algoritmo de treinamento chamaod Seq2Seq, separo cada frase em palavras tokens que são token atual e seu próximo token.
4--depois de treinada a IA, ela vai receber a frase do prompt e retornar palavra por palavra a frase mais provável para cada token.
5--ou seja, se vc digitar uma frase como "como vai?" ela vai ler a palavra "como" e calcular qual é a próxima palavra mais provável, dai ela lê "vai?" e ai ela escolhe a vai também porque era uma das palavras provaveis, e então, a partir da pilha de escolhas, ela calcula novamente qual a próxima palavra, que nesse caso como é uma frase bem comum, pode ser qualquer coisa como "estou" depois com "estou" ela calcula que o próximo é "bem" e com "bem" ela calcula que o próximo é [fim de frase].
Não sei se alguém entendeu, mas basicamente é só isso ai, o próximo token sempre é calculado baseado no token atual! Pra quem não conhece, antes do Seq2Seq existir, as IA eram todas de saída de tamanho fixo e ninguém sabia o que fazer para ter algo nesse sentido de saída de tamanho variável, até que um sujeito em 2010 teve a ideia de criar o Seq2Seq e ser uma das coisas que causou a explosão das IA nos últimos 10 anos.
Seq2Seq é usado no Transformer que é a base de toda LLM desenvolvidas até hoje.
E pensar que algo tão simples assim seria tão bem utilizado, fico admirado como levaram décadas pra desenvolver tal algoritmo tão simplório mas genial.
______________________________
https://nerdki.blogspot.com.br/ acessa ai, é grátis!