FuncionalidadesCasos de UsoBlogReferencia APIPor Qué CorePlexMLPrecios
Empezar Gratis

Preparación de datos conversacional

Chatea con un asistente de IA impulsado por LLMs de OpenAI y Anthropic para preparar tus datos. Sube CSV/Excel/JSON/XML, limpia, transforma, codifica — todo a través de conversación natural.

platform.coreplexml.io
Interfaz conversacional de IA del Dataset Builder con asistente de preparación de datos

Pipeline de preparación de datos en 6 pasos

Desde la carga en bruto hasta el dataset listo para ML. Cada paso guiado por IA, cada transformación mostrada como Python ejecutable.

1. Cargar y Explorar

Sube tu archivo (CSV, Excel, JSON, XML). La IA detecta automáticamente el esquema, los tipos de columna, los valores faltantes y los problemas de calidad de datos.

2. Limpiar

Maneja valores faltantes (media, mediana, relleno hacia adelante), elimina duplicados, corrige valores atípicos y descarta columnas irrelevantes — todo mediante conversación.

3. Transformar

Conversión de tipos, extracción de features de fechas, normalización de texto, agrupación y expresiones personalizadas. Dile a la IA lo que necesitas en español.

4. Codificar y Escalar

One-hot encoding, label encoding, StandardScaler, MinMaxScaler. La IA sugiere el mejor enfoque basándose en tus datos y la variable objetivo.

5. Selección de Features

Selecciona o descarta features para el modelado. La IA recomienda basándose en análisis de correlación e importancia de features del perfilado inicial.

6. Exportar

Exporta como dataset versionado listo para IA. Seguimiento completo del linaje — cada transformación registrada con el script Python generado.

Key Capabilities

Everything you need to get the most out of this module.

Ingestión Multi-Formato

Sube archivos CSV, Excel, JSON o XML. Detección automática de esquema e inferencia de tipos.

Transformaciones Inteligentes

Conversión de tipos, one-hot encoding, label encoding, escalado, imputación — todo mediante lenguaje natural.

Ejecución Transparente

Ve los scripts Python generados para cada transformación. Reproducibilidad completa garantizada.

Control de Versiones

Versionado de datasets con diff de esquemas. Rastrea cada cambio y revierte cuando sea necesario.

Habla con tus datos

Impulsado por LLMs de OpenAI y Anthropic. Describe lo que necesitas en español — la IA genera y ejecuta el código de transformación por ti.

Descarta las columnas con más del 50% de valores faltantes

IA

Encontré 3 columnas que superan el umbral: fax_number (87% nulo), middle_name (62% nulo) y alt_phone (54% nulo). Las estoy eliminando ahora.

Rellena las edades faltantes con la mediana y codifica género con one-hot

IA

Listo. Rellené 47 valores de edad faltantes con la mediana (34.0). Creé las columnas gender_male y gender_female. Script guardado para reproducibilidad.

Más de 15 tipos de transformación

Desde imputación simple hasta ingeniería de features compleja. Todo disponible mediante lenguaje natural o la API.

Imputación

Rellena valores faltantes con media, mediana, moda, relleno hacia adelante, relleno hacia atrás o valores personalizados. Estrategias específicas por columna.

One-Hot Encoding

Convierte columnas categóricas en columnas indicadoras binarias. Maneja alta cardinalidad con umbrales configurables.

Label Encoding

Codificación ordinal para categorías ordenadas. Preserva el orden natural (bajo < medio < alto).

Escalado

StandardScaler (puntuación z) o MinMaxScaler (rango 0-1). Esencial para modelos basados en distancia y redes neuronales.

Extracción de Fechas

Extrae año, mes, día, día de la semana, hora de columnas datetime. Crea múltiples features numéricas a partir de una sola fecha.

Agrupación (Binning)

Agrupa valores continuos en bins discretos. Anchura igual, frecuencia igual o límites personalizados.

Normalización de Texto

Minúsculas, eliminar espacios, quitar caracteres especiales. Estandariza columnas de texto antes de codificar.

Descartes Personalizados

Elimina columnas por nombre, umbral de nulos alto o detección de varianza cero. La IA recomienda descartes basándose en la calidad de datos.

Conversión de Tipos

Convierte texto a numérico, parsea fechas, corrige columnas de tipo mixto. Maneja casos especiales como símbolos de moneda y porcentajes.

Formatos de Archivo
CSV, Excel, JSON, XML
Motor de IA
OpenAI + Anthropic
Tipos de Transformación
15+
Historial de Versiones
Linaje completo
Transparencia de Código
Scripts Python mostrados
Detección de Esquema
Automática
Formatos de Exportación
CSV, Parquet
Estado de Sesión
Persistente y reanudable

ETL conversacional desde código

Integra el pipeline de preparación de datos con IA en tus flujos de trabajo. Chatea, transforma y exporta mediante programación.

prepare_data.py
from coreplexml import CorePlexMLClient

client = CorePlexMLClient(
    base_url="https://api.coreplexml.io",
    api_key="sk_your_api_key"
)

# Start a conversational ETL session
session = client.builder.create_session(
    project_id="proj_abc",
    file_path="raw_customers.csv"
)
print(f"Session: {session['id']}")
print(f"Rows: {session['row_count']}, Cols: {session['col_count']}")

# Chat with the AI to clean data
resp = client.builder.chat(
    session_id=session["id"],
    message="Drop the customer_id column and fill missing ages with median"
)
print(resp["reply"])
print(f"Script: {resp['script']}")  # Shows generated Python

# Execute the cleaning step
result = client.builder.execute(
    session_id=session["id"],
    step="cleaning"
)
print(f"Rows after cleaning: {result['row_count']}")

# Ask for encoding recommendations
resp = client.builder.chat(
    session_id=session["id"],
    message="One-hot encode the categorical columns and scale numerics"
)

# Export the prepared dataset
final = client.builder.finalize(session_id=session["id"])
print(f"Dataset version: {final['dataset_version_id']}")
print(f"Ready for AutoML training")

API de Dataset Builder

Endpoints para sesiones conversacionales, ejecución de pasos y exportación de datasets.

POST
/api/builder/sessions

Crear una nueva sesión con carga de archivo (multipart)

POST
/api/builder/sessions/{id}/chat

Enviar un mensaje en lenguaje natural, obtener respuesta + plan de IA

POST
/api/builder/sessions/{id}/steps/{step}/propose

Generar plan de transformación y script Python

POST
/api/builder/sessions/{id}/steps/{step}/execute

Ejecutar el paso de transformación propuesto

POST
/api/builder/sessions/{id}/finalize

Exportar dataset listo para IA como recurso versionado

GET
/api/builder/sessions/{id}

Obtener estado de sesión, paso actual y vista previa de datos

De la carga al análisis

platform.coreplexml.io/datasets/...
Vista general del dataset con estadísticas de columnas y perfilado de datos

Vista general del dataset con estadísticas por columna

platform.coreplexml.io/datasets/.../visualizations
Gráficos de distribución de datos y análisis de visualización

Visualizaciones de datos interactivas y distribuciones

¿Listo para empezar?

Empieza a construir con CorePlexML hoy. Nivel gratuito disponible — no se requiere tarjeta de crédito.