FuncionalidadesCasos de UsoBlogReferência APIPor Que CorePlexMLPreços
Começar Grátis

Geração de dados sintéticos

Gere milhões de registros sintéticos estatisticamente fiéis usando CTGAN, CopulaGAN, TVAE e Gaussian Copula. Compartilhe dados sem risco de privacidade.

platform.coreplexml.io
Dashboard de métricas de qualidade do SynthGen

4 motores de geracao para cada tipo de dado

Escolha o motor ideal para a distribuicao dos seus dados. Cada motor se destaca em cenarios diferentes.

CTGAN

GAN Tabular Condicional. Ideal para dados de tipo misto (numerico + categorico). Lida com o desbalanceamento de classes e os valores ausentes nativamente.

CopulaGAN

GAN baseada em copulas para correlacoes multivariadas complexas. Preserva as relacoes nao lineares entre features melhor que os GANs padrao.

TVAE

Autoencoder Variacional Tabular. Destaca-se com dados de alta dimensionalidade e distribuicoes complexas. Equilibrio entre velocidade e qualidade.

Gaussian Copula

Modelo estatistico para dados continuos. Captura relacoes lineares e nao lineares. Tempo de treinamento mais rapido de todos os motores.

Key Capabilities

Everything you need to get the most out of this module.

4 Motores de IA

CTGAN, CopulaGAN, TVAE e Gaussian Copula — escolha o melhor motor para a distribuição dos seus dados.

Métricas de Qualidade

Divergência KL, preservação de correlação e métricas de cobertura garantem fidelidade estatística.

Pontuação de Privacidade

Avaliação de risco de re-identificação, verificação de k-anonimato e garantias de privacidade.

Escala

Gere 10M+ registros sintéticos. Processamento em lotes com tamanhos de saída configuráveis.

Fidelidade estatistica com garantias de privacidade

Cada dataset sintetico e pontuado tanto em qualidade de dados quanto em protecao de privacidade.

Divergencia KL

Mede o quao bem as distribuicoes sinteticas correspondem aos dados originais. Valores mais baixos indicam maior fidelidade a distribuicao fonte.

Preservacao de Correlacoes

Valida que as relacoes entre features nos dados sinteticos reflitam as originais. Critico para manter a utilidade dos dados em modelos posteriores.

Metricas de Cobertura

Garante que os dados sinteticos cubram a faixa completa das distribuicoes marginais. Previne o colapso de modas e as lacunas em casos extremos.

Risco de Re-identificacao

Avalia a probabilidade de rastrear registros sinteticos ate individuos originais. Pontuado de 0 (seguro) a 1 (alto risco).

Verificacao de k-Anonimato

Verifica tamanhos minimos de grupos em combinacoes de quase-identificadores. Garante que nenhum individuo seja identificavel de forma unica no dataset sintetico.

Privacidade Diferencial

Parametros de privacidade epsilon-delta configuraveis. Garantias matematicas sobre o vazamento de informacoes dos dados sinteticos.

Motores IA
4 (GAN + VAE)
Max. Registros
10M+ por geracao
Tipos de Dados
Numerico, Categorico, Data
Metricas de Qualidade
KL, Correlacao, Cobertura
Testes de Privacidade
Risco Re-ID, k-Anonimato
Reprodutibilidade
Geracao baseada em semente
Geracao assincrona em larga escala
Sim
Formatos de Exportacao
CSV, Parquet

Gere dados sinteticos programaticamente

Treine modelos, gere registros e valide a qualidade — tudo pelo SDK.

generate_synthetic.py
from coreplexml import CorePlexMLClient

client = CorePlexMLClient(
    base_url="https://api.coreplexml.io",
    api_key="sk_your_api_key"
)

# Train a CTGAN model on your dataset
model = client.synthgen.create_model(
    project_id="proj_abc",
    dataset_version_id="dsv_customer_q1",
    name="customer-synth-v1",
    model_type="ctgan",
    config={"epochs": 300, "batch_size": 500}
)

# Wait for training
client.synthgen.wait(model["id"])

# Generate 100,000 synthetic records
synthetic = client.synthgen.generate(
    model_id=model["id"],
    num_rows=100_000,
    seed=42
)
print(f"Generated: {synthetic['num_rows']} rows")
print(f"KL Divergence: {synthetic['quality']['kl_divergence']:.4f}")
print(f"Re-ID Risk: {synthetic['privacy']['reidentification_risk']:.4f}")

# Download synthetic dataset
client.synthgen.download(model["id"], output_path="synthetic_data.csv")

API de SynthGen

Endpoints para treinamento de modelos, geracao de dados e avaliacao de qualidade.

POST
/api/synthgen/models

Treinar um modelo de dados sinteticos (CTGAN, CopulaGAN, TVAE, Gaussian Copula)

GET
/api/synthgen/models/{id}

Obter detalhes do modelo, estado de treinamento e metricas de qualidade

POST
/api/synthgen/models/{id}/generate

Gerar registros sinteticos (ate 10M+ linhas)

DELETE
/api/synthgen/models/{id}

Excluir um modelo de dados sinteticos

Geracao de dados sinteticos

platform.coreplexml.io/synthgen
Dashboard de metricas de qualidade do SynthGen com comparacao de distribuicoes

Metricas de qualidade e analise de distribuicoes

Pronto para comecar?

Comece a construir com CorePlexML hoje. Plano gratuito disponivel — nao e necessario cartao de credito.