⚖️ Advanced Evaluation (LLM-as-a-Judge)

Esta habilidad permite implementar sistemas de evaluación de grado de producción utilizando LLMs como jueces. Cubre desde la taxonomía de evaluación hasta la mitigación de sesgos sistemáticos (posición, longitud, auto-mejora).

Mental Model: La evaluación no es un evento, es un pipeline. El "LLM-as-a-Judge" no es una técnica única, sino un framework de decisiones basado en la naturaleza del dato (objetivo vs. subjetivo).

🚩 Fragilidad y Autonomía

Fragilidad: Media. La definición de rúbricas requiere alineación con los objetivos del negocio/proyecto.
Libertad: Alta en la implementación técnica de los pipelines de validación.

🚀 Cuándo Activar

Al construir pipelines de evaluación automática para outputs de LLM.
Para comparar respuestas de múltiples modelos (A/B testing de prompts).
Al establecer estándares de calidad consistentes en equipos de desarrollo.
Para depurar sistemas de evaluación con resultados inconsistentes.

🧠 Conceptos Core

1. Taxonomía de Evaluación

Enfoque	Mejor para...	Fiabilidad	Fallo Común
Direct Scoring	Criterios Objetivos (Factualidad, Formato)	Alta	Deriva de escala (calibration drift)
Pairwise Comparison	Criterios Subjetivos (Tono, Estilo, Creatividad)	Muy Alta	Sesgo de posición (Position Bias)

2. El Paisaje de Sesgos (Mitigación)

Position Bias: Tendencia a preferir la primera respuesta.
- Mitigación: Evaluar dos veces intercambiando posiciones (Swap) y verificar consistencia.
Length Bias: Preferencia por respuestas largas.
- Mitigación: Instrucciones explícitas de ignorar longitud y penalizar verborrea irrelevante.
Self-Enhancement: Modelos que puntúan mejor sus propios outputs.
- Mitigación: Usar modelos diferentes para generación y evaluación.

🛠️ Implementación en Gemini Elite Core

Patrón: Direct Scoring (Gemini 3 + Thinking)

Utiliza thinking-pro para razonar sobre la evidencia antes de emitir el score.

## Task
Evalúa la calidad de la respuesta según los criterios.

## Criterios
- Precisión Factual (Peso: 1.0)
- Concisión (Peso: 0.5)

## Instrucciones
1. Busca evidencia específica en la respuesta.
2. Razona sobre cómo la evidencia cumple o no el criterio.
3. Asigna un score (1-5).
4. Sugiere una mejora atómica.

## Formato de Salida (JSON)
{ "score": number, "reasoning": string, "improvement": string }

Patrón: Pairwise con Swap

Es obligatorio realizar el "Swap Test" para asegurar la integridad de la evaluación.

Pass 1: Modelo evalúa [Respuesta A, Respuesta B].
Pass 2: Modelo evalúa [Respuesta B, Respuesta A].
Consistencia: Si el ganador cambia, se marca como EMPATE con confianza baja.

📏 Generación de Rúbricas

Una rúbrica bien definida reduce la varianza en un 40-60%.

Nivel 1 (Pobre): Sin evidencia, logicamente inconsistente.
Nivel 3 (Adecuado): Cumple la instrucción, tono correcto, logicamente pasable.
Nivel 5 (Excelente): Supera expectativas, insights profundos, formato perfecto.

🔗 Integraciones

context-fundamentals: Estructura de prompts de evaluación.
tool-design: Creación de herramientas de validación programática.
debug-master: Identificación de fallos sistémicos en la lógica del modelo.

📚 Referencias Internas

references/bias-mitigation.md: Técnicas avanzadas de Swap y PoLL (Panel of LLMs).
references/implementation-patterns.md: Patrones técnicos de "Reasoning-First" y "Swap Test".
references/metrics-guide.md: Selección de métricas (Factualidad, Tono, Formato).

advanced-evaluation

⚖️ Advanced Evaluation (LLM-as-a-Judge)

🚩 Fragilidad y Autonomía

🚀 Cuándo Activar

🧠 Conceptos Core

1. Taxonomía de Evaluación

2. El Paisaje de Sesgos (Mitigación)

🛠️ Implementación en Gemini Elite Core

Patrón: Direct Scoring (Gemini 3 + Thinking)

Patrón: Pairwise con Swap

📏 Generación de Rúbricas

🔗 Integraciones

📚 Referencias Internas

More from yuniorglez/gemini-elite-core

filament-pro

remotion-expert

tailwind4-expert

pdf-pro

threejs-expert

ui-ux-specialist