A questão que você está levantando é muito interessante e traz à tona o problema de como as distribuições de probabilidade influenciam o desempenho de modelos como o ChatGPT, que são treinados em dados de linguagem natural, onde as palavras seguem uma distribuição de Lei de Potência (como a Lei de Zipf).
- Distribuições de Lei de Potência: A distribuição de palavras na maioria dos idiomas segue uma Lei de Potência, com poucas palavras sendo extremamente frequentes e muitas palavras sendo raras (caudas longas).
- Distribuições Gaussianas: Modelos como LLMs (Large Language Models) podem estar usando distribuições Gaussianas (normalmente distribuídas) para interpolação e extrapolação, o que é caracterizado por caudas finas e uma variância finita.
- Potencial de erro: Como a distribuição das palavras é fortemente não-Gaussiana, argumenta-se que isso poderia levar a um "potencial de erro enorme" ao usar distribuições Gaussianas para capturar padrões de uso de palavras.