O crescimento na adesão e uso modelos de linguagem de grande porte (LLMs) mostra potencial como acelerador na transformação de diversos setores, com soluções escaláveis para atendimento ao cliente, personalização e automação de processos. Porém, trabalhar com esses modelos, especialmente quando pré-treinados com um corpus desconhecido, bem como técnicas de decuplicação, filtro e limpeza, apresenta desafios consideráveis, principalmente pela ausência de extrair e mensurar a explicabilidade em seus resultados.
Neste contexto, quero explorar esses desafios, comparar LLMs com modelos mais explicáveis, e propor técnicas para análise, alinhamento e controle dos resultados, usando mercados como varejo, indústria e logística para elaboração do raciocínio.
O Desafio da Explicabilidade em LLMs Pré-Treinados
Explicabilidade é a capacidade de compreender como um modelo de aprendizado de máquina gera a uma determinada saída, ou seja, gera um determinado resultado. Em algoritmos supervisionados, como regressões lineares, é possível rastrear como cada variável influencia os resultados, o que facilita a interpretação, aumenta a confiança e apoia a tomada de decisões fundamentadas, permitindo inclusive sua reprodutibilidade.
Já os LLMs pré-treinados, como GPT, LLaMA, Gemini, Phi3 – isso para citar alguns – são verdadeiras “caixas-pretas”. Utilizam bilhões de parâmetros e conjuntos de dados extensos, não fornecem clareza sobre os pesos atribuídos a cada palavra ou contexto, por conta de restrições técnicas inerentes a modelos de aprendizado profundo (deep learning). Essa falta de visibilidade é um problema para evolução em estudos, focando em levar a solução para um ambiente produtivo de uso massivo, independentemente do setor ou indústria.
Partindo para a comparação de modelos explicáveis e LLMs, posso explanar sobre:
- Modelos Explicáveis: cada vez mais encontrados em uso, posso citar áreas como finanças e saúde, onde decisões críticas demandam justificativas claras. Por exemplo, um modelo de regressão logística pode indicar como cada fator, citando preço ou demanda, impacta uma previsão de vendas.
- Modelos de Linguagem (LLMs): oferecem flexibilidade e precisão em contextos mais amplos, mas sem a capacidade de explicar cada decisão.
Expandindo para outros exemplos de mercados como varejo, decisões mal justificadas podem levar a perdas financeiras ou insatisfação do cliente. Em logística, uma rota sugerida sem explicação pode gerar desconfiança e atrasos operacionais.
Superando os Desafios: Técnicas de Análise e Avaliação
Dado a ausência de domínio de explicabilidade, o foco pode se voltar para técnicas de análise de resultados e controle. Abaixo, trago algumas opções de técnicas e como aplicá-las:
Testes de Regressão
- Varejo: considere o cenário de aplicação onde um chatbot sugere produtos. Antes de implementar uma nova versão, crie prompts como “Quais são os melhores smartphones até mil reais?” e compare as respostas da antiga e da nova versão;
- Indústria: para automação de processos, como geração de relatórios de produção, avalie se o modelo mantém padrões de clareza e precisão após a atualização, podendo determinar quais os limítrofes, superior e inferior, aceitável;
- Logística: simule perguntas como “Qual a rota mais eficiente para São Paulo?” e garanta que o modelo considera novas variáveis sem introduzir erros, atento aos históricos de rotas conhecidas e sabidamente eficazes.
Definição de Métricas de Qualidade
Ao menos, três métricas são essenciais:
- Coerência: Avaliar se as respostas fazem sentido dentro do contexto, p.e.: um LLM deve sugerir promoções válidas apenas para o período do ano em varejo, considerando as sazonalidades do negócio.
- Relevância: a resposta precisa atender ao prompt de forma objetiva, p.e.: em logística, uma rota sugerida deve ser otimizada para o menor custo ou tempo, dependendo do objetivo definido.
- Concisão: garantir que as respostas sejam diretas e sem redundância, p.e.: na indústria, relatórios gerados por LLMs devem ser claros e sucintos, eliminando detalhes desnecessários.
Controle de Tokens e Limitação de Respostas
Controlar o prompt de saída, considerando o ajuste no número máximo de tokens, é uma alternativa interessante para evitar verbosidade, obter dados potencialmente classificáveis e garantir que as respostas não sejam excessivamente longas.
Alguns potenciais resultados:
- Varejo: para chatbots de um e-commerce, respostas longas podem confundir clientes. Limite respostas como “Detalhes do produto” a cem tokens.
- Indústria: limitar descrições técnicas para melhorar a legibilidade por equipes de chão de fábrica.
- Logística: truncar respostas extensas ao sugerir rotas ou inventários pode acelerar a tomada de decisão.
Guardrails e Alinhamento
São práticas que evitam desvios e mantêm o modelo aderentes aos objetivos do negócio.
- Guardrails: filtros ou limites técnicos que evitam respostas inadequadas ou excessivamente específicas, p.e.: proibir o modelo de gerar rotas que envolvam áreas de alto risco sem supervisão humana.
- Alinhamento: ajusta o comportamento do modelo para reforçar valores organizacionais, p.e.: em um varejista com foco em sustentabilidade, o modelo deve priorizar sugestões de produtos que atendam a regras ambientes.
Monitoramento Contínuo
O desempenho de um LLM pode mudar com o tempo, exigindo ajustes constantes.
- Varejo: use feedback do cliente para refinar as respostas geradas. Metadados também são bem-vindos, como diminuição ou aumento do tempo médio de utilização pode indicar uma mudança de comportamento das respostas e interação com os clientes.
- Indústria: monitore relatórios gerados para garantir que continuam precisos com novas atualizações de equipamentos.
- Logística: avalie as rotas sugeridas em função de eventos externos, como mudanças climáticas ou obras.
Em complemento ao uso das técnicas, incorpore simulações aos cenários de avaliação.
- Varejo: Prompt: “Quais promoções estão disponíveis para TVs em dezembro?” Nova versão com evidente falha: Sugere promoções antigas e testes de regressão mostram que o modelo falha em atualizar dados, exigindo ajustes.
- Indústria: Prompt: “Como está a produção da linha X?” Resposta esperada: Relatório sucinto. Implementação de controle de tokens garante clareza, evitando relatórios prolixos.
- Logística: Prompt: “Qual a melhor rota para entrega em Curitiba?” Guardrail aplicado: Bloqueia respostas que sugerem rotas com restrições de veículos de carga sem verificação humana.
Importante: os prompts citados acima são apenas para exemplificar o contexto de simulação e a importância de capturar as respostas para avaliação, sendo assim, um prompt adequado deve seguir técnicas de engenharia de prompt, que trarei em um futuro breve para esta coluna.
Embora os LLMs pré-treinados apresentem desafios de explicabilidade, técnicas como testes de regressão, métricas de qualidade, controle de tokens e monitoramento contínuo devem fazer parte do toolkit para avaliação de desempenho alinhado aos objetivos do negócio. Essas práticas melhoram a confiança nos modelos e ampliam sua utilidade, contornando em partes potenciais “caixas-pretas” dando continuidade a geração e captura de valor para as empresas.