Metricas de Qualidade e QA
Meca relevancia, groundedness, accuracy e implemente human feedback loop
Um RAG em producao precisa de metricas. Sem avaliacao, voce nao sabe se esta retornando chunks relevantes, se as respostas sao fundamentadas nos documentos, ou se os usuarios estao satisfeitos.
"Parece que funciona" nao e metrica
Nao escala, subjetiva, inconsistente
Metricas objetivas, continua, escalavel
Mede se os chunks retornados sao relevantes para a query. Use um LLM para avaliar cada chunk de 0-10.
Verifica se a resposta e fundamentada nos chunks. Detecta "alucinacoes" onde o LLM inventa informacoes.
Compara resposta com ground truth (quando disponivel). Util para FAQs e perguntas com respostas conhecidas.
Feedback direto do usuario: thumbs up/down, ratings, comentarios.
Usuario indica se resposta foi util. Armazena: query, response, chunks, rating.
Identifica queries com baixo rating. Agrupa por topico ou tipo de erro.
Adiciona exemplos ao prompt, ajusta chunking, melhora retrieval.
Use feedback para treinar um reward model ou ajustar prompts:
Query + Response
LLM Evaluator
Dashboard
Avg Relevance Score
Groundedness Rate
Avg User Rating
Avg Response Time
Sistema de avaliacao automatizada de qualidade RAG. Mede relevancia, groundedness e satisfacao do usuario.