Generación de datos sintéticos
Genera millones de registros sintéticos estadísticamente fieles usando CTGAN, CopulaGAN, TVAE y Gaussian Copula. Comparte datos sin riesgo de privacidad.

4 motores de generación para cada tipo de dato
Elige el motor óptimo para la distribución de tus datos. Cada motor destaca en escenarios diferentes.
GAN Tabular Condicional. Ideal para datos de tipo mixto (numérico + categórico). Maneja el desbalance de clases y los valores faltantes de forma nativa.
GAN basada en cópulas para correlaciones multivariadas complejas. Preserva las relaciones no lineales entre features mejor que los GANs estándar.
Autoencoder Variacional Tabular. Destaca con datos de alta dimensionalidad y distribuciones complejas. Equilibrio entre velocidad y calidad.
Modelo estadístico para datos continuos. Captura relaciones lineales y no lineales. Tiempo de entrenamiento más rápido de todos los motores.
Key Capabilities
Everything you need to get the most out of this module.
4 Motores de IA
CTGAN, CopulaGAN, TVAE y Gaussian Copula — elige el mejor motor para la distribución de tus datos.
Métricas de Calidad
Divergencia KL, preservación de correlación y métricas de cobertura aseguran fidelidad estadística.
Puntuación de Privacidad
Evaluación de riesgo de re-identificación, verificación de k-anonimato y garantías de privacidad.
Escala
Genera 10M+ registros sintéticos. Procesamiento por lotes con tamaños de salida configurables.
Fidelidad estadística con garantías de privacidad
Cada dataset sintético se puntúa tanto en calidad de datos como en protección de privacidad.
Divergencia KL
Mide qué tan bien las distribuciones sintéticas coinciden con los datos originales. Los valores más bajos indican mayor fidelidad a la distribución fuente.
Preservación de Correlaciones
Valida que las relaciones entre features en los datos sintéticos reflejen las originales. Crítico para mantener la utilidad de los datos en modelos posteriores.
Métricas de Cobertura
Asegura que los datos sintéticos cubran el rango completo de distribuciones marginales. Previene el colapso de modas y las brechas en casos extremos.
Riesgo de Re-identificación
Evalúa la probabilidad de rastrear registros sintéticos hasta individuos originales. Puntuado de 0 (seguro) a 1 (alto riesgo).
Verificación de k-Anonimato
Verifica tamaños mínimos de grupos en combinaciones de cuasi-identificadores. Asegura que ningún individuo sea identificable de forma única en el dataset sintético.
Privacidad Diferencial
Parámetros de privacidad epsilon-delta configurables. Garantías matemáticas sobre la filtración de información de los datos sintéticos.
Genera datos sintéticos programáticamente
Entrena modelos, genera registros y valida la calidad — todo desde el SDK.
from coreplexml import CorePlexMLClient
client = CorePlexMLClient(
base_url="https://api.coreplexml.io",
api_key="sk_your_api_key"
)
# Train a CTGAN model on your dataset
model = client.synthgen.create_model(
project_id="proj_abc",
dataset_version_id="dsv_customer_q1",
name="customer-synth-v1",
model_type="ctgan",
config={"epochs": 300, "batch_size": 500}
)
# Wait for training
client.synthgen.wait(model["id"])
# Generate 100,000 synthetic records
synthetic = client.synthgen.generate(
model_id=model["id"],
num_rows=100_000,
seed=42
)
print(f"Generated: {synthetic['num_rows']} rows")
print(f"KL Divergence: {synthetic['quality']['kl_divergence']:.4f}")
print(f"Re-ID Risk: {synthetic['privacy']['reidentification_risk']:.4f}")
# Download synthetic dataset
client.synthgen.download(model["id"], output_path="synthetic_data.csv")API de SynthGen
Endpoints para entrenamiento de modelos, generación de datos y evaluación de calidad.
/api/synthgen/modelsEntrenar un modelo de datos sintéticos (CTGAN, CopulaGAN, TVAE, Gaussian Copula)
/api/synthgen/models/{id}Obtener detalles del modelo, estado de entrenamiento y métricas de calidad
/api/synthgen/models/{id}/generateGenerar registros sintéticos (hasta 10M+ filas)
/api/synthgen/models/{id}Eliminar un modelo de datos sintéticos
Generación de datos sintéticos

Métricas de calidad y análisis de distribuciones
¿Listo para empezar?
Empieza a construir con CorePlexML hoy. Nivel gratuito disponible — no se requiere tarjeta de crédito.