Ingenieria ML11 min read

A/B Testing de Modelos ML en Produccion

CorePlexML Team·28 de febrero de 2026

Mas Alla de las Metricas Offline

Todo data scientist ha experimentado la brecha entre la evaluacion offline y la realidad de produccion. Un modelo logra un AUC fuerte en el conjunto de holdout, se despliega con confianza, y luego rinde por debajo del modelo que reemplazo en las metricas que realmente importan al negocio. La razon es directa: las metricas offline miden la precision predictiva en una instantanea estatica de datos. Los resultados de negocio dependen de como las predicciones interactuan con el comportamiento del usuario, los sistemas downstream y las condiciones del mundo real que son dificiles de replicar en un entorno de pruebas.

El A/B testing cierra esta brecha comparando modelos en trafico de produccion real. En lugar de confiar en un unico numero calculado sobre datos historicos, observas como cada modelo rinde en la misma poblacion de usuarios, al mismo tiempo, bajo las mismas condiciones. El resultado es una comparacion directa y justa del impacto en el negocio.

Considera un modelo de prediccion de churn. Dos candidatos podrian tener AUC casi identico en tu conjunto de prueba, digamos 0.87 y 0.88. Pero en produccion, el modelo con 0.87 de AUC podria producir probabilidades mejor calibradas que lleven a campanas de retencion mas efectivas. La unica forma de descubrirlo es probar ambos modelos con usuarios reales y medir el resultado que te importa: clientes retenidos.

El A/B testing tambien protege contra modos de fallo mas sutiles. Un modelo podria rendir bien en promedio pero degradarse severamente para un segmento especifico de usuarios. Podria introducir latencia que afecte las tasas de conversion. Podria interactuar mal con una capa de cache o un feature store. Estos son fenomenos de produccion que la evaluacion offline no puede detectar.

Fundamentos Estadisticos

Antes de configurar un A/B test, vale la pena entender el marco estadistico que lo sustenta. CorePlexML soporta enfoques tanto frecuentistas como bayesianos, y la eleccion afecta como interpretas los resultados y tomas decisiones.

Testing Frecuentista

El enfoque frecuentista formula una hipotesis nula (tipicamente que ambos modelos rinden igual) y calcula la probabilidad de observar la diferencia medida si la hipotesis nula fuera verdadera. Esta probabilidad es el p-value. Si el p-value cae por debajo de tu nivel de significancia (comunmente 0.05), rechazas la hipotesis nula y concluyes que la diferencia es estadisticamente significativa.

Los parametros clave son el nivel de significancia (alpha), que controla la tasa de falsos positivos, y el poder estadistico (1 menos beta), que controla la probabilidad de detectar una diferencia real cuando existe. Estos dos parametros, combinados con el efecto minimo detectable (la menor diferencia que consideras significativa), determinan el tamano de muestra requerido.

Testing Bayesiano

El enfoque bayesiano comienza con una creencia previa sobre el rendimiento de cada modelo y la actualiza conforme llegan datos. En lugar de un p-value, obtienes una probabilidad posterior de que un modelo es mejor que el otro. Esto suele ser mas intuitivo para los tomadores de decisiones: en lugar de decir que el p-value es 0.03, puedes decir que hay un 97% de probabilidad de que el Modelo B supere al Modelo A.

El testing bayesiano tambien maneja mejor el problema del "peeking". En el testing frecuentista, revisar resultados repetidamente y detenerse antes de tiempo infla la tasa de falsos positivos. Los posteriores bayesianos pueden verificarse en cualquier momento sin esta penalizacion, aunque aun necesitas datos suficientes para que el posterior sea confiable.

Configuracion de un A/B Test

El framework de A/B testing de CorePlexML esta integrado en el sistema de deployments. Creas un A/B test especificando dos o mas variantes de modelo, una division de trafico y la metrica que deseas optimizar. Aqui una configuracion completa usando el SDK:

from coreplexml import CorePlexClient

client = CorePlexClient(
    base_url="https://api.coreplexml.io",
    api_key="your-api-key"
)

ab_test = client.ab_tests.create(
    project_id="proj_abc123",
    name="Churn Model Q1 Comparison",
    variants=[
        {
            "name": "control",
            "model_id": "model_xgb_v3",
            "traffic_percentage": 50
        },
        {
            "name": "challenger",
            "model_id": "model_gbm_v4",
            "traffic_percentage": 50
        }
    ],
    primary_metric="retention_rate",
    secondary_metrics=["prediction_latency_p99", "auc"],
    statistical_method="bayesian",
    confidence_level=0.95,
    minimum_sample_size=5000,
    maximum_duration_days=14
)

print(f"A/B Test ID: {ab_test.id}")
print(f"Status: {ab_test.status}")
print(f"Required samples per variant: {ab_test.required_sample_size}")

La primary_metric es el resultado de negocio que estas optimizando. A diferencia de metricas offline como AUC o RMSE, esta deberia ser una metrica que refleje directamente el valor de negocio: tasa de conversion, ingresos por usuario, retencion de clientes o cualquier metrica personalizada que definas. Las secondary_metrics son metricas de proteccion que monitoreas para asegurar que el modelo ganador no degrade otras dimensiones importantes. Un modelo que mejora la retencion en un 2% pero duplica la latencia podria no ser un beneficio neto.

El parametro confidence_level establece el umbral para declarar un ganador. En 0.95, el sistema requiere 95% de confianza (frecuentista) o 95% de probabilidad posterior (bayesiano) antes de declarar un resultado. Niveles de confianza mas altos requieren mas datos pero reducen el riesgo de un falso positivo.

Division de Trafico y Asignacion

La division de trafico en A/B tests de ML requiere mas cuidado que en experimentos web tipicos. Cada usuario debe ser asignado consistentemente a la misma variante durante toda la duracion del test. Si un usuario recibe predicciones del Modelo A el lunes y del Modelo B el martes, sus resultados no pueden atribuirse limpiamente a ningun modelo.

CorePlexML maneja esto mediante hashing deterministico. Cada solicitud de prediccion incluye un identificador de usuario (o identificador de sesion), que se hashea para producir una asignacion de variante consistente. El mismo usuario siempre ve el mismo modelo, independientemente de cuando o cuantas veces haga solicitudes.

# Making predictions during an A/B test
# The variant is selected automatically based on user_id
prediction = client.deployments.predict(
    deployment_id=ab_test.deployment_id,
    features={
        "tenure_months": 14,
        "monthly_charges": 72.50,
        "contract_type": "month-to-month",
        "tech_support": "no"
    },
    user_id="user_98765"
)

print(f"Prediction: {prediction.value}")
print(f"Variant served: {prediction.variant}")
print(f"Model: {prediction.model_id}")

Tambien puedes configurar divisiones de trafico que no sean 50/50. Una division 90/10 te permite probar un nuevo modelo riesgoso con exposicion minima mientras recopilas suficientes datos para alcanzar significancia, aunque tomara mas tiempo. Para tests multi-variante comparando tres o mas modelos, las divisiones pueden ser arbitrarias siempre que sumen 100.

Monitoreo de un Test Activo

Una vez que el test esta corriendo, CorePlexML rastrea continuamente las metricas de cada variante y proporciona un dashboard en tiempo real. Tambien puedes consultar el estado actual programaticamente:

status = client.ab_tests.get_status(test_id=ab_test.id)

for variant in status.variants:
    print(f"\n--- {variant.name} ---")
    print(f"  Samples: {variant.sample_count}")
    print(f"  Primary metric ({status.primary_metric}): {variant.primary_value:.4f}")
    print(f"  95% CI: [{variant.confidence_interval[0]:.4f}, "
          f"{variant.confidence_interval[1]:.4f}]")
    for metric_name, metric_value in variant.secondary_values.items():
        print(f"  {metric_name}: {metric_value:.4f}")

print(f"\nRelative improvement: {status.relative_improvement:+.2%}")
print(f"P-value: {status.p_value:.4f}")
print(f"Posterior probability (challenger > control): "
      f"{status.posterior_probability:.4f}")
print(f"Estimated days remaining: {status.estimated_days_remaining}")

El campo estimated_days_remaining se calcula a partir de la tasa de acumulacion actual y el tamano de muestra restante necesario para alcanzar significancia. Esto te ayuda a planificar en torno al test y comunicar plazos a los stakeholders.

Tamano de Muestra y Duracion

Un tamano de muestra insuficiente es la razon mas comun por la que los A/B tests producen resultados enganosos. CorePlexML calcula el tamano de muestra minimo requerido basandose en tu nivel de significancia, poder y el efecto minimo detectable que especifiques. Si quieres detectar una mejora del 1% en la tasa de retencion con 95% de confianza y 80% de poder, necesitaras muchas mas muestras que si buscas una mejora del 5%.

Como guia practica, la mayoria de los A/B tests de ML necesitan al menos 1,000 muestras por variante para metricas con baja varianza (como resultados de clasificacion binaria), y 5,000 o mas para metricas con alta varianza (como ingresos o duracion de sesion). CorePlexML muestra una barra de progreso indicando que tan lejos esta cada variante del conteo de muestras requerido.

Analisis de Resultados

Cuando el test alcanza el tamano de muestra requerido, CorePlexML genera un informe de resultados completo. El informe incluye el tamano del efecto estimado, intervalos de confianza, p-values o probabilidades posteriores, y una recomendacion.

results = client.ab_tests.get_results(test_id=ab_test.id)

print(f"Test: {results.name}")
print(f"Duration: {results.duration_days} days")
print(f"Total samples: {results.total_samples}")
print(f"\nWinner: {results.winner}")
print(f"Effect size: {results.effect_size:+.4f}")
print(f"Relative improvement: {results.relative_improvement:+.2%}")
print(f"P-value: {results.p_value:.4f}")
print(f"Posterior probability: {results.posterior_probability:.4f}")
print(f"95% Confidence interval: [{results.ci_lower:+.4f}, "
      f"{results.ci_upper:+.4f}]")
print(f"\nRecommendation: {results.recommendation}")

El tamano del efecto te dice no solo si la diferencia es estadisticamente significativa, sino si es practicamente significativa. Un modelo que mejora la tasa de clics en un 0.01% podria ser estadisticamente significativo con suficientes datos, pero el impacto en el negocio es insignificante. CorePlexML senala los resultados donde el tamano del efecto cae por debajo de un umbral practico minimo que tu defines.

El intervalo de confianza te da un rango de valores plausibles para el efecto real. Si el intervalo es estrecho y no incluye cero, puedes estar seguro tanto de la direccion como de la magnitud de la mejora. Si el intervalo es amplio, la estimacion es incierta y podrias querer continuar el test.

Metricas de Proteccion

Las metricas secundarias que especificaste sirven como metricas de proteccion. Incluso si el challenger gana en la metrica primaria, CorePlexML verifica que las metricas de proteccion no se hayan degradado mas alla de los limites aceptables. Por ejemplo, si la latencia de prediccion aumenta un 50%, el sistema lo senala como una preocupacion incluso si la retencion mejoro:

for guardrail in results.guardrail_checks:
    status_label = "PASS" if guardrail.passed else "FAIL"
    print(f"  [{status_label}] {guardrail.metric}: "
          f"{guardrail.control_value:.4f} -> "
          f"{guardrail.challenger_value:.4f} "
          f"(threshold: {guardrail.threshold})")

Declaracion de Ganador y Promocion

Cuando estes satisfecho con los resultados, puedes declarar un ganador y promover el modelo ganador para servir todo el trafico. Esto transiciona el deployment de modo A/B test a modo de modelo unico estandar:

promotion = client.ab_tests.declare_winner(
    test_id=ab_test.id,
    winner_variant="challenger",
    promotion_strategy="canary",
    promotion_steps=[25, 50, 75, 100],
    notes="GBM v4 showed 3.2% improvement in retention rate "
          "with no degradation in latency or AUC."
)

print(f"Promotion ID: {promotion.id}")
print(f"Strategy: {promotion.strategy}")
print(f"Current traffic: {promotion.current_step}%")

La promocion en si puede usar cualquier estrategia de deployment. Se recomienda una promocion canary incluso despues de un A/B test exitoso, porque agrega una capa adicional de seguridad durante la transicion de trafico dividido a trafico completo en el modelo ganador. El A/B test valido el modelo en un subconjunto de trafico; la promocion canary lo valida a escala.

Mejores Practicas

Define tu metrica primaria antes de que comience el test. Elegir la metrica despues de ver los resultados introduce sesgo. Comprometete con la metrica, el nivel de significancia y el efecto minimo detectable por adelantado, y documenta estas decisiones.

No mires y detengas prematuramente. Si estas usando testing frecuentista, revisar resultados repetidamente y detenerte cuando ves significancia infla dramaticamente tu tasa de falsos positivos. Comprometete con un tamano de muestra fijo o usa el metodo bayesiano, que es mas robusto al analisis interino.

Ejecuta el test lo suficiente para capturar patrones temporales. El comportamiento de usuarios varia por dia de la semana, momento del mes y temporada. Un test que corre solo en dias laborales podria perder patrones de fin de semana. Apunta a al menos un ciclo de negocio completo, tipicamente una a dos semanas minimo.

Usa metricas de proteccion. Un modelo que gana en tu metrica primaria pero degrada la latencia, la equidad o la cobertura puede causar mas dano que bien. Define las metricas de proteccion por adelantado y respetarlas.

Considera los efectos de novedad y primacia. Los usuarios a veces responden diferente a un nuevo modelo simplemente porque es nuevo, no porque sea mejor. Estos efectos se desvanecen con el tiempo. Si tu test muestra un efecto inicial fuerte que disminuye, considera extender la duracion del test.

Documenta y archiva los resultados. Cada A/B test produce conocimiento institucional sobre que funciona y que no. CorePlexML almacena historiales completos de tests incluyendo configuraciones, metricas y resultados para que tu equipo pueda revisar experimentos pasados y construir sobre aprendizajes previos.

El ML en produccion se trata en ultima instancia de entregar valor de negocio, no de optimizar metricas abstractas. El A/B testing es el metodo mas confiable para conectar cambios de modelo con resultados del mundo real. Al invertir en experimentacion rigurosa, transformas el deployment de modelos de un salto de fe a una decision basada en datos.

Para mas informacion sobre la infraestructura de deployment y testing de CorePlexML, visita la pagina de funcionalidades MLOps.