Preparación de datos conversacional
Chatea con un asistente de IA impulsado por LLMs de OpenAI y Anthropic para preparar tus datos. Sube CSV/Excel/JSON/XML, limpia, transforma, codifica — todo a través de conversación natural.

Pipeline de preparación de datos en 6 pasos
Desde la carga en bruto hasta el dataset listo para ML. Cada paso guiado por IA, cada transformación mostrada como Python ejecutable.
1. Cargar y Explorar
Sube tu archivo (CSV, Excel, JSON, XML). La IA detecta automáticamente el esquema, los tipos de columna, los valores faltantes y los problemas de calidad de datos.
2. Limpiar
Maneja valores faltantes (media, mediana, relleno hacia adelante), elimina duplicados, corrige valores atípicos y descarta columnas irrelevantes — todo mediante conversación.
3. Transformar
Conversión de tipos, extracción de features de fechas, normalización de texto, agrupación y expresiones personalizadas. Dile a la IA lo que necesitas en español.
4. Codificar y Escalar
One-hot encoding, label encoding, StandardScaler, MinMaxScaler. La IA sugiere el mejor enfoque basándose en tus datos y la variable objetivo.
5. Selección de Features
Selecciona o descarta features para el modelado. La IA recomienda basándose en análisis de correlación e importancia de features del perfilado inicial.
6. Exportar
Exporta como dataset versionado listo para IA. Seguimiento completo del linaje — cada transformación registrada con el script Python generado.
Key Capabilities
Everything you need to get the most out of this module.
Ingestión Multi-Formato
Sube archivos CSV, Excel, JSON o XML. Detección automática de esquema e inferencia de tipos.
Transformaciones Inteligentes
Conversión de tipos, one-hot encoding, label encoding, escalado, imputación — todo mediante lenguaje natural.
Ejecución Transparente
Ve los scripts Python generados para cada transformación. Reproducibilidad completa garantizada.
Control de Versiones
Versionado de datasets con diff de esquemas. Rastrea cada cambio y revierte cuando sea necesario.
Habla con tus datos
Impulsado por LLMs de OpenAI y Anthropic. Describe lo que necesitas en español — la IA genera y ejecuta el código de transformación por ti.
Descarta las columnas con más del 50% de valores faltantes
Encontré 3 columnas que superan el umbral: fax_number (87% nulo), middle_name (62% nulo) y alt_phone (54% nulo). Las estoy eliminando ahora.
Rellena las edades faltantes con la mediana y codifica género con one-hot
Listo. Rellené 47 valores de edad faltantes con la mediana (34.0). Creé las columnas gender_male y gender_female. Script guardado para reproducibilidad.
Más de 15 tipos de transformación
Desde imputación simple hasta ingeniería de features compleja. Todo disponible mediante lenguaje natural o la API.
Imputación
Rellena valores faltantes con media, mediana, moda, relleno hacia adelante, relleno hacia atrás o valores personalizados. Estrategias específicas por columna.
One-Hot Encoding
Convierte columnas categóricas en columnas indicadoras binarias. Maneja alta cardinalidad con umbrales configurables.
Label Encoding
Codificación ordinal para categorías ordenadas. Preserva el orden natural (bajo < medio < alto).
Escalado
StandardScaler (puntuación z) o MinMaxScaler (rango 0-1). Esencial para modelos basados en distancia y redes neuronales.
Extracción de Fechas
Extrae año, mes, día, día de la semana, hora de columnas datetime. Crea múltiples features numéricas a partir de una sola fecha.
Agrupación (Binning)
Agrupa valores continuos en bins discretos. Anchura igual, frecuencia igual o límites personalizados.
Normalización de Texto
Minúsculas, eliminar espacios, quitar caracteres especiales. Estandariza columnas de texto antes de codificar.
Descartes Personalizados
Elimina columnas por nombre, umbral de nulos alto o detección de varianza cero. La IA recomienda descartes basándose en la calidad de datos.
Conversión de Tipos
Convierte texto a numérico, parsea fechas, corrige columnas de tipo mixto. Maneja casos especiales como símbolos de moneda y porcentajes.
ETL conversacional desde código
Integra el pipeline de preparación de datos con IA en tus flujos de trabajo. Chatea, transforma y exporta mediante programación.
from coreplexml import CorePlexMLClient
client = CorePlexMLClient(
base_url="https://api.coreplexml.io",
api_key="sk_your_api_key"
)
# Start a conversational ETL session
session = client.builder.create_session(
project_id="proj_abc",
file_path="raw_customers.csv"
)
print(f"Session: {session['id']}")
print(f"Rows: {session['row_count']}, Cols: {session['col_count']}")
# Chat with the AI to clean data
resp = client.builder.chat(
session_id=session["id"],
message="Drop the customer_id column and fill missing ages with median"
)
print(resp["reply"])
print(f"Script: {resp['script']}") # Shows generated Python
# Execute the cleaning step
result = client.builder.execute(
session_id=session["id"],
step="cleaning"
)
print(f"Rows after cleaning: {result['row_count']}")
# Ask for encoding recommendations
resp = client.builder.chat(
session_id=session["id"],
message="One-hot encode the categorical columns and scale numerics"
)
# Export the prepared dataset
final = client.builder.finalize(session_id=session["id"])
print(f"Dataset version: {final['dataset_version_id']}")
print(f"Ready for AutoML training")API de Dataset Builder
Endpoints para sesiones conversacionales, ejecución de pasos y exportación de datasets.
/api/builder/sessionsCrear una nueva sesión con carga de archivo (multipart)
/api/builder/sessions/{id}/chatEnviar un mensaje en lenguaje natural, obtener respuesta + plan de IA
/api/builder/sessions/{id}/steps/{step}/proposeGenerar plan de transformación y script Python
/api/builder/sessions/{id}/steps/{step}/executeEjecutar el paso de transformación propuesto
/api/builder/sessions/{id}/finalizeExportar dataset listo para IA como recurso versionado
/api/builder/sessions/{id}Obtener estado de sesión, paso actual y vista previa de datos
De la carga al análisis

Vista general del dataset con estadísticas por columna

Visualizaciones de datos interactivas y distribuciones
¿Listo para empezar?
Empieza a construir con CorePlexML hoy. Nivel gratuito disponible — no se requiere tarjeta de crédito.