Primero los datos: el verdadero punto de partida en Machine Learning

En tiempos donde la inteligencia artificial y el Machine Learning capturan la atención del sector público y privado, es habitual que la conversación se centre en algoritmos complejos, redes neuronales profundas o capacidades predictivas sofisticadas. Sin embargo, detrás de cualquier proyecto exitoso, existe un componente menos visible, pero decisivo: la calidad de los datos.

En la práctica, ningún modelo —por avanzado que sea— puede compensar deficiencias estructurales en los datos con los que se lo alimenta. Básicamente, un modelo es tan bueno como los datos con los que se lo entrena. Si estos no son representativos, actualizados o confiables, las predicciones resultantes no solo pierden precisión, sino que pueden inducir a errores estratégicos.

¿Qué entendemos por datos de calidad?

Tener “buenos datos” no implica únicamente contar con grandes volúmenes de información, sino que esa información cumpla con ciertos requisitos fundamentales a la hora de la recolección:

  • Representatividad del fenómeno que se desea modelar.
  • Actualización en relación con los cambios recientes.
  • Consistencia en sus definiciones y formatos.
  • Precisión y completitud para evitar distorsiones.
  • Relevancia: que aporten valor al problema de negocio.

Cuando no se cumplen estos criterios, los modelos terminan aprendiendo ruido, reproduciendo sesgos o perdiendo poder predictivo. En definitiva, se alejan de su propósito: anticipar con utilidad. De poco sirve tener un modelo que predice el pasado con exactitud si no es capaz de generalizar al futuro.

El trabajo silencioso que define el resultado

Quienes trabajamos en ciencia de datos sabemos que gran parte del tiempo y el esfuerzo en un proyecto de Machine Learning no se dedica a modelar, sino a entender, preparar y validar los datos. Este trabajo suele ser poco visible, pero es el que define los márgenes de éxito.

Un modelo simple, bien alimentado, puede generar mejores resultados que una arquitectura compleja sobre datos ruidosos o mal estructurados.

Por eso, en muchos casos, el diferencial competitivo no está en el algoritmo elegido, sino en el cuidado puesto en la construcción del dataset.

Más datos no siempre es mejor

Una experiencia reciente trabajando en proyectos de predicción de demanda (atención telefónica) nos dejó una enseñanza valiosa.

En este proyecto, entrenamos modelos utilizando información histórica hasta diciembre de 2024 para anticipar el comportamiento de llamadas entrantes en marzo. Los resultados iniciales fueron muy buenos.

Sin embargo, al intentar reentrenar incorporando también los datos de enero y febrero del año siguiente, el desempeño del modelo empeoró: comenzó a sobreestimar sistemáticamente el volumen de llamadas para marzo.

¿Qué había ocurrido?

Al analizar la serie histórica (2018–2025), detectamos que enero y febrero de 2025 mostraban una caída del 15% al 20% en la cantidad diaria de llamadas respecto de años anteriores. Este quiebre rompió el patrón habitual de estacionalidad.

Sumado a esto, marzo —que históricamente representa un salto natural en el volumen respecto a enero-febrero— tuvo en 2025 una recuperación mucho más modesta de lo esperado. Entonces, incluir los datos atípicos de enero y febrero en el entrenamiento hizo que el modelo esperara una recuperación más agresiva en marzo… que nunca llegó.

El resultado: proyecciones sobreestimadas y decisiones potencialmente equivocadas si no hubiéramos detectado el problema a tiempo.

Este caso demuestra que no basta con agregar más datos: es crucial analizar su pertinencia y su coherencia con el fenómeno que queremos anticipar.

Invertir en los datos es invertir en el negocio

La calidad de los datos no es una cuestión técnica secundaria: es una decisión estratégica que impacta directamente en la calidad de las decisiones. Mejores datos permiten:

  • Anticipar con mayor precisión.
  • Segmentar de forma más eficiente.
  • Reducir riesgos operativos.
  • Optimizar recursos escasos.
  • Aumentar la rentabilidad.
  • Detectar oportunidades de intervención antes de que sea tarde.
En definitiva, en Machine Learning, no gana quien corre más rápido, sino quien construye mejor el camino. Y ese camino empieza —siempre— con los datos.