Con Marca Enero 2026 Opinión Datos sintéticos: desmontando el hype Pablo Torrecillas, director de División; y Cristina Martínez, directora de IA y Ciencia de Datos de GfK España El punto de partida amplitud y solidez en sus datos de entrenamiento, debe- ría saltar la alarma. “10.000 consumidores sin encuestar a nadie”. “Reducción de costes del 80%”. “Olvídate de las encuestas tradiciona- Por supuesto, sí existen otros casos donde se generan les”. Estas promesas se repiten en conferencias, emails co- conjuntos completos de datos sintéticos. Uno de ellos es merciales y presentaciones de ventas con una frecuencia la fusión de fuentes de datos. Las empresas suelen tener inquietante. Y plantean una pregunta necesaria: ¿cuánto información atrapada en silos: un estudio de usos y actitu- hay de real en todo esto? des aquí, tracking de marca allá, datos de navegación web en otro lugar. Bases diferentes, personas diferentes, impo- La respuesta resulta más matizada de lo que las prome- sibles de cruzar directamente. Los datos sintéticos permi- sas comerciales sugieren. Los datos sintéticos representan ten crear individuos virtuales que integran información de una herramienta genuinamente útil para casos de uso es- múltiples fuentes, posibilitando análisis antes imposibles. pecíficos, pero están lejos de ser la panacea universal que algunos proveedores venden. El valor real aparece cuan- Otro ejemplo de uso genuino de datos sintéticos en in- do se entiende qué son exactamente, cuándo funcionan y, vestigación de mercados es la simulación basada en quizás más importante, dónde termina su utilidad. agentes. Para nosotros, el caso de uso más interesante en este ámbito. La confusión empieza con la propia terminología. Tome- mos como ejemplo un caso muy común: predecir cómo Imaginemos una empresa de gran consumo que necesita funcionará un anuncio sin la necesidad de encuestas, algo entender qué efecto real tuvo cada campaña que ejecu- que cada vez más se presenta bajo el elástico concepto de tó el pasado año. Dispone de datos de ventas, inversión ‘muestras sintéticas’. La realidad es que no hay tal mues- por canal y tracking de marca, pero no logra conectar los tra, no se genera una muestra de consumidores virtuales. puntos. ¿Cuántas ventas vinieron de aquella campaña de Por el contrario, se trata de un modelo predictivo que pro- verano? ¿Valió la pena duplicar la inversión en digital? Un nostica directamente los KPIs: “este anuncio obtendrá un modelo basado en agentes permitiría no solo responder 34% de recall, un 28% de persuasión y un 15% de inten- a esas preguntas retrospectivamente, sino también si- ción de compra”. Hacerlo así es más eficiente y preciso que mular escenarios prospectivos. “¿Y si en lugar de lanzar generar toda una muestra y después agregarla. Llamar a en septiembre lanzáramos en junio?”. El modelo propor- esto muestra sintética es abusar del término, quizás para cionaría estimaciones basadas en cómo ha funcionado el que suene más atractivo y novedoso. mercado históricamente. Se trata, en definitiva, de crear un tablero de juego sobre el que testar cualquier hipótesis Además, para que estas predicciones sean fiables deben de negocio. basarse en modelos entrenados con miles de anuncios testados previamente. Y cuando decimos miles, habla- Aquí sí se genera una población sintética que replica la mos de miles: de distintas categorías de producto, de dis- dinámica de un mercado real. Ahora bien, la construcción tintos países, con toda la diversidad necesaria para que de estos modelos requiere competencia técnica y expe- los patrones sean sólidos, no funciona con unas pocas riencia considerables, tiempo de desarrollo significativo decenas de casos. Por eso, cuando un proveedor ofrece y, por supuesto, datos históricos de calidad de la cate- este tipo de solución, pero no demuestra contar con esa goría específica. 84