Engenharia ML5 min read

Implantacoes Seguras de Modelos com Canary Deployments

CorePlexML Team·28 de fevereiro de 2026

O Problema da Implantacao

Implantar um modelo de machine learning em producao e fundamentalmente diferente de implantar software tradicional. Quando voce publica uma nova versao de uma aplicacao web, pode escrever testes de integracao que verifiquem que a saida e correta para inputs conhecidos. Quando publica um novo modelo, a correcao e probabilistica. O modelo pode funcionar maravilhosamente no conjunto de teste, mas se comportar inesperadamente com dados de producao que caem fora da distribuicao na qual foi treinado.

Esses modos de falha tornam as implantacoes de ML inerentemente mais arriscadas. As consequencias vao desde levemente embaracosas ate financeiramente catastroficas. A estrategia de implantacao que voce escolhe determina quanta exposicao ao risco aceita e quao rapido pode se recuperar quando algo da errado.

Comparacao de Estrategias de Implantacao

O CorePlexML suporta quatro estrategias de implantacao: Direta (troca instantanea, sem rede de seguranca), Canary (rampa gradual de trafego com rollback automatico), Blue-Green (ambientes paralelos com troca atomica) e Shadow (execucao paralela sem servir predicoes).

Como Funcionam os Canary Deployments

Um canary deployment no CorePlexML segue uma progressao estruturada por estagios de trafego. Em cada estagio, o sistema avalia a saude do modelo canary contra limiares configuraveis:

from coreplexml import CorePlexClient

client = CorePlexClient(
    base_url="https://api.coreplexml.io",
    api_key="your-api-key"
)

deployment = client.deployments.create(
    project_id="proj_abc123",
    model_id="model_gbm_v4",
    name="Fraud Detector v4 (Canary)",
    strategy="canary",
    canary_config={
        "stages": [
            {"traffic_percentage": 5, "duration_minutes": 60},
            {"traffic_percentage": 25, "duration_minutes": 120},
            {"traffic_percentage": 50, "duration_minutes": 180},
            {"traffic_percentage": 100, "duration_minutes": 0}
        ],
        "health_checks": {
            "error_rate_threshold": 0.01,
            "latency_p99_threshold_ms": 200,
            "prediction_quality_metric": "auc",
            "prediction_quality_threshold": 0.85,
            "min_samples_per_stage": 500
        },
        "auto_advance": True,
        "auto_rollback": True,
        "rollback_on_error_spike": True
    }
)

O array stages define a progressao de trafego. Cada estagio especifica uma porcentagem de trafego e uma duracao minima. O canary deve sobreviver a duracao completa em cada estagio antes de avancar.

Health Checks em Detalhe

O CorePlexML avalia a saude do canary em tres dimensoes: confiabilidade, desempenho e qualidade de predicao.

Metricas de Confiabilidade

A taxa de erro mede a fracao de solicitacoes que resultam em erros. Um modelo saudavel deve ter taxa de erro proxima de zero.

Metricas de Desempenho

Os percentis de latencia capturam quao rapido o modelo responde. O p99 e particularmente importante para avaliacao canary porque revela problemas de latencia na cauda.

health = client.deployments.get_canary_health(
    deployment_id=deployment.id
)

print(f"Stage: {health.current_stage}")
print(f"Canary traffic: {health.canary_traffic_percentage}%")
print(f"Samples processed: {health.canary_samples}")
print(f"\nReliability:")
print(f"  Error rate: {health.error_rate:.4f}")
print(f"\nPerformance:")
print(f"  Latency p50: {health.latency_p50_ms:.1f}ms")
print(f"  Latency p99: {health.latency_p99_ms:.1f}ms")
print(f"\nPrediction Quality:")
print(f"  AUC: {health.prediction_quality:.4f}")
print(f"\nOverall: {health.status}")

Rollback Automatizado

O rollback automatizado e o mecanismo de seguranca que torna os canary deployments praticos em escala. O rollback e acionado quando qualquer metrica de health check cruza seu limiar. O processo e imediato: o trafego e redirecionado completamente ao modelo base.

client.alerts.create(
    deployment_id=deployment.id,
    name="Canary rollback notification",
    event_type="canary_rollback",
    channels=[
        {
            "type": "slack",
            "webhook_url": "https://hooks.slack.com/services/T00/B00/xxx"
        },
        {
            "type": "email",
            "address": "ml-team@company.com"
        }
    ]
)

Blue-Green Deployments

deployment = client.deployments.create(
    project_id="proj_abc123",
    model_id="model_gbm_v4",
    name="Fraud Detector v4 (Blue-Green)",
    strategy="blue-green",
    blue_green_config={
        "rollback_window_minutes": 30,
        "health_checks": {
            "error_rate_threshold": 0.005,
            "latency_p99_threshold_ms": 150
        },
        "auto_rollback": True
    }
)

# Switch traffic from blue to green
client.deployments.switch(deployment_id=deployment.id)

Shadow Deployments

deployment = client.deployments.create(
    project_id="proj_abc123",
    model_id="model_gbm_v4",
    name="Fraud Detector v4 (Shadow)",
    strategy="shadow",
    shadow_config={
        "comparison_window_days": 7,
        "log_predictions": True,
        "compare_metrics": ["auc", "precision", "recall", "latency_p99"],
        "async_inference": True
    }
)

Um Fluxo de Trabalho de Implantacao Real

Na pratica, a maioria das equipes usa uma combinacao de estrategias em sequencia:

Etapa 1: Validacao shadow. Implante o novo modelo como shadow por 3-7 dias, comparando predicoes e latencia.

Etapa 2: Rollout canary. Se a comparacao shadow estiver limpa, promova para canary. Comece com 5% de trafego e avance ate 100% ao longo de 24-48 horas.

Etapa 3: Monitoramento pos-implantacao. Continue monitorando com alertas padrao para data drift e degradacao de desempenho.

Melhores Praticas

Comece de forma conservadora. Inicie canary deployments com 5% ou menos. O custo de um rollout mais lento se mede em horas. O custo de uma implantacao ruim atingindo 100% pode se medir em receita e confianca do usuario.

Defina limiares significativos. Os limiares de health check devem ser baseados no desempenho real do seu modelo base, nao em numeros arbitrarios.

Monitore metricas de negocio, nao apenas metricas de modelo. Um modelo pode ter AUC e latencia aceitaveis mas ainda causar problemas downstream.

Use auto-advance para implantacoes padrao. O avanco manual e apropriado para a primeira implantacao de um novo tipo de modelo, mas para atualizacoes rotineiras, o auto-advance reduz a carga operacional.

Mantenha ambos os modelos aquecidos. Durante um canary deployment, o modelo base deve permanecer totalmente carregado e pronto para absorver 100% do trafego a qualquer momento.

Revise os post-mortems de rollback. Cada rollback e uma oportunidade de aprendizado. O CorePlexML registra o historico completo de cada implantacao.

A implantacao segura de modelos nao e sobre eliminar o risco por completo. E sobre controlar sua exposicao, medir resultados em trafego real e ter salvaguardas automatizadas que protejam seus usuarios e seu negocio quando as coisas nao saem como planejado.