FuncionalidadesCasos de UsoBlogReferencia APIPor Qué CorePlexMLPrecios
Empezar Gratis

Generación de datos sintéticos

Genera millones de registros sintéticos estadísticamente fieles usando CTGAN, CopulaGAN, TVAE y Gaussian Copula. Comparte datos sin riesgo de privacidad.

platform.coreplexml.io
Dashboard de métricas de calidad de SynthGen

4 motores de generación para cada tipo de dato

Elige el motor óptimo para la distribución de tus datos. Cada motor destaca en escenarios diferentes.

CTGAN

GAN Tabular Condicional. Ideal para datos de tipo mixto (numérico + categórico). Maneja el desbalance de clases y los valores faltantes de forma nativa.

CopulaGAN

GAN basada en cópulas para correlaciones multivariadas complejas. Preserva las relaciones no lineales entre features mejor que los GANs estándar.

TVAE

Autoencoder Variacional Tabular. Destaca con datos de alta dimensionalidad y distribuciones complejas. Equilibrio entre velocidad y calidad.

Gaussian Copula

Modelo estadístico para datos continuos. Captura relaciones lineales y no lineales. Tiempo de entrenamiento más rápido de todos los motores.

Key Capabilities

Everything you need to get the most out of this module.

4 Motores de IA

CTGAN, CopulaGAN, TVAE y Gaussian Copula — elige el mejor motor para la distribución de tus datos.

Métricas de Calidad

Divergencia KL, preservación de correlación y métricas de cobertura aseguran fidelidad estadística.

Puntuación de Privacidad

Evaluación de riesgo de re-identificación, verificación de k-anonimato y garantías de privacidad.

Escala

Genera 10M+ registros sintéticos. Procesamiento por lotes con tamaños de salida configurables.

Fidelidad estadística con garantías de privacidad

Cada dataset sintético se puntúa tanto en calidad de datos como en protección de privacidad.

Divergencia KL

Mide qué tan bien las distribuciones sintéticas coinciden con los datos originales. Los valores más bajos indican mayor fidelidad a la distribución fuente.

Preservación de Correlaciones

Valida que las relaciones entre features en los datos sintéticos reflejen las originales. Crítico para mantener la utilidad de los datos en modelos posteriores.

Métricas de Cobertura

Asegura que los datos sintéticos cubran el rango completo de distribuciones marginales. Previene el colapso de modas y las brechas en casos extremos.

Riesgo de Re-identificación

Evalúa la probabilidad de rastrear registros sintéticos hasta individuos originales. Puntuado de 0 (seguro) a 1 (alto riesgo).

Verificación de k-Anonimato

Verifica tamaños mínimos de grupos en combinaciones de cuasi-identificadores. Asegura que ningún individuo sea identificable de forma única en el dataset sintético.

Privacidad Diferencial

Parámetros de privacidad epsilon-delta configurables. Garantías matemáticas sobre la filtración de información de los datos sintéticos.

Motores IA
4 (GAN + VAE)
Máx. Registros
10M+ por generación
Tipos de Datos
Numérico, Categórico, Fecha
Métricas de Calidad
KL, Correlación, Cobertura
Tests de Privacidad
Riesgo Re-ID, k-Anonimato
Reproducibilidad
Generación basada en semilla
Generación asíncrona a gran escala
Formatos de Exportación
CSV, Parquet

Genera datos sintéticos programáticamente

Entrena modelos, genera registros y valida la calidad — todo desde el SDK.

generate_synthetic.py
from coreplexml import CorePlexMLClient

client = CorePlexMLClient(
    base_url="https://api.coreplexml.io",
    api_key="sk_your_api_key"
)

# Train a CTGAN model on your dataset
model = client.synthgen.create_model(
    project_id="proj_abc",
    dataset_version_id="dsv_customer_q1",
    name="customer-synth-v1",
    model_type="ctgan",
    config={"epochs": 300, "batch_size": 500}
)

# Wait for training
client.synthgen.wait(model["id"])

# Generate 100,000 synthetic records
synthetic = client.synthgen.generate(
    model_id=model["id"],
    num_rows=100_000,
    seed=42
)
print(f"Generated: {synthetic['num_rows']} rows")
print(f"KL Divergence: {synthetic['quality']['kl_divergence']:.4f}")
print(f"Re-ID Risk: {synthetic['privacy']['reidentification_risk']:.4f}")

# Download synthetic dataset
client.synthgen.download(model["id"], output_path="synthetic_data.csv")

API de SynthGen

Endpoints para entrenamiento de modelos, generación de datos y evaluación de calidad.

POST
/api/synthgen/models

Entrenar un modelo de datos sintéticos (CTGAN, CopulaGAN, TVAE, Gaussian Copula)

GET
/api/synthgen/models/{id}

Obtener detalles del modelo, estado de entrenamiento y métricas de calidad

POST
/api/synthgen/models/{id}/generate

Generar registros sintéticos (hasta 10M+ filas)

DELETE
/api/synthgen/models/{id}

Eliminar un modelo de datos sintéticos

Generación de datos sintéticos

platform.coreplexml.io/synthgen
Dashboard de métricas de calidad de SynthGen con comparación de distribuciones

Métricas de calidad y análisis de distribuciones

¿Listo para empezar?

Empieza a construir con CorePlexML hoy. Nivel gratuito disponible — no se requiere tarjeta de crédito.