| Tech

Cómo los datos sintéticos entrenan a la IA para resolver problemas reales

A medida que los datos sintéticos se vuelven más realistas, serán más útiles para entrenar la IA, pero también será más fácil que se hagan mal uso de ellos.

Cómo los datos sintéticos entrenan a la IA para resolver problemas reales [Foto: Freepik]

Acabas de terminar una exigente caminata hasta la cima de una montaña. Estás exhausto pero eufórico. La vista de la ciudad a tus pies es magnífica y quieres inmortalizar el momento con tu cámara. Pero ya está bastante oscuro y no estás seguro de conseguir una buena foto. Por suerte, tu teléfono tiene un modo nocturno con inteligencia artificial que puede tomar fotos impresionantes incluso después del atardecer.

Aquí tienes algo que quizás no sepas: ese modo nocturno podría haberse entrenado con imágenes nocturnas sintéticas, escenas generadas por computadora que nunca se fotografiaron realmente.

A medida que los investigadores de inteligencia artificial agotan la reserva de datos reales en la web y en archivos digitalizados, recurren cada vez más a los datos sintéticos, ejemplos generados artificialmente que imitan a los reales. Pero esto crea una paradoja. En ciencia, inventarse datos es un pecado capital. Los datos falsos y la desinformación ya están minando la confianza en la información en línea. Entonces, ¿cómo pueden ser buenos los datos sintéticos? ¿Son solo un eufemismo para el engaño?

Como investigador de aprendizaje automático, creo que la respuesta reside en la intención y la transparencia. Los datos sintéticos generalmente no se crean para manipular resultados ni engañar a las personas. De hecho, la ética puede exigir que las empresas de IA utilicen datos sintéticos: publicar imágenes de rostros humanos reales, por ejemplo, puede violar la privacidad, mientras que los rostros sintéticos pueden ofrecer beneficios similares con garantías formales de privacidad.

Existen otras razones que ayudan a explicar el creciente uso de datos sintéticos en el entrenamiento de modelos de IA. Algunos elementos son tan escasos o raros que apenas están representados en los datos reales. En lugar de permitir que estas lagunas se conviertan en un punto débil, los investigadores pueden simular esas situaciones.

Otra motivación es que recopilar datos reales puede ser costoso e incluso arriesgado. Imaginemos recopilar datos para un coche autónomo durante tormentas o en caminos sin asfaltar. A menudo es mucho más eficiente y seguro generar dichos datos virtualmente.

Aquí tienes una breve explicación de qué son los datos sintéticos y por qué los utilizan investigadores y desarrolladores.

Cómo se crean los datos sintéticos

Entrenar un modelo de IA requiere grandes cantidades de datos. Al igual que con los estudiantes y los atletas, cuanto más se entrena una IA, mejor suele ser su rendimiento. Los investigadores saben desde hace tiempo que, si los datos escasean, pueden usar una técnica conocida como aumento de datos. Por ejemplo, una imagen dada se puede rotar o escalar para obtener datos de entrenamiento adicionales. Los datos sintéticos son un aumento de datos potenciado. En lugar de hacer pequeñas modificaciones a las imágenes existentes, los investigadores crean imágenes completamente nuevas.

Pero ¿cómo crean los investigadores los datos sintéticos? Existen dos enfoques principales. El primero se basa en modelos basados ​​en reglas o en la física. Por ejemplo, las leyes de la óptica pueden usarse para simular cómo se vería una escena dadas las posiciones y orientaciones de los objetos que la componen.

El segundo enfoque utiliza IA generativa para producir datos. Los modelos generativos modernos se entrenan con grandes cantidades de datos y ahora pueden crear texto, audio, imágenes y videos increíblemente realistas. La IA generativa ofrece una forma flexible de producir conjuntos de datos grandes y diversos.

Ambos enfoques comparten un principio común: si los datos no provienen directamente del mundo real, deben provenir de un modelo realista del mismo.

Desventajas y riesgos

También es importante recordar que, si bien los datos sintéticos pueden ser útiles, no son la solución definitiva. La fiabilidad de los datos sintéticos depende de la calidad de los modelos de la realidad de los que provienen, e incluso los mejores modelos científicos o generativos tienen limitaciones.

Los investigadores deben tener cuidado con los posibles sesgos e imprecisiones en los datos que producen. Por ejemplo, pueden simular el ecosistema de los seguros de hogar para ayudar a detectar fraudes, pero esas simulaciones podrían incluir suposiciones injustas sobre los barrios o los tipos de propiedades. Los beneficios de estos datos deben sopesarse frente a los riesgos para la imparcialidad y la equidad.

También es importante mantener una clara distinción entre los modelos y las simulaciones, por un lado, y el mundo real, por el otro. Los datos sintéticos son invaluables para entrenar y probar sistemas de IA, pero cuando un modelo de IA se implementa en el mundo real, su rendimiento y seguridad deben probarse con datos reales, no simulados, por razones tanto técnicas como éticas.

Es probable que la investigación futura sobre datos sintéticos en IA se enfrente a muchos desafíos. Algunos son de índole ética, otros científicos y otros de ingeniería. A medida que los datos sintéticos se vuelven más realistas, serán más útiles para entrenar la IA, pero también será más fácil que se hagan mal uso de ellos. Por ejemplo, las imágenes sintéticas cada vez más realistas pueden utilizarse para crear videos deepfake convincentes.

Creo que los investigadores y las empresas de IA deberían mantener registros claros que indiquen qué datos son sintéticos y por qué se crearon. Revelar con claridad qué partes de los datos de entrenamiento son reales y cuáles son sintéticas es fundamental para la producción responsable de modelos de IA. La ley de California, “Inteligencia artificial generativa: transparencia de los datos de entrenamiento”, que entrará en vigor el 1 de enero de 2026, exige a los desarrolladores de IA que revelen si utilizaron datos sintéticos en el entrenamiento de sus modelos.

Los investigadores también deberían estudiar cómo los errores en las simulaciones o los modelos pueden generar datos erróneos. Un trabajo meticuloso contribuirá a que los datos sintéticos sean transparentes, confiables y seguros.

Manteniendo la realidad

La mayoría de los sistemas de IA aprenden encontrando patrones en los datos. Los investigadores pueden mejorar esta capacidad añadiendo datos sintéticos. Sin embargo, la IA no tiene noción de lo que es real o verdadero. El deseo de mantenerse en contacto con la realidad y buscar la verdad es propio de las personas, no de las máquinas. El juicio y la supervisión humanos en el uso de datos sintéticos seguirán siendo esenciales en el futuro.

La próxima vez que uses una función interesante de IA en tu teléfono inteligente, piensa si los datos sintéticos podrían haber influido en su uso. Nuestras IA pueden aprender de datos sintéticos, pero la realidad sigue siendo la fuente última de nuestro conocimiento y el juez final de nuestras creaciones.

Ambuj Tewari es profesor de estadística en la Universidad de Michigan.

Este artículo se retoma de The Conversation bajo una licencia Creative Commons. Lee el artículo original.

Author

  • The Conversation

    Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.

    View all posts

Author

  • The Conversation

    Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.

    View all posts

Sobre el autor

Es una organización de noticias sin fines de lucro e independiente, dedicada a poner el conocimiento de los expertos al servicio del bien público.