Según la NASA, la “materia” es cualquier sustancia que tenga masa y ocupe espacio. Pero en el universo hay más que la materia que podemos ver. La materia oscura y la energía oscura son sustancias misteriosas que afectan y dan forma al cosmos, y los científicos todavía están tratando de descifrarlas.
¿Qué pasaría si viéramos la cantidad de datos creados en las últimas dos décadas o más de la misma manera? Si la materia oscura constituye 85% de la materia del universo, en el mundo terrenal de la inteligencia y el análisis empresarial, solo alrededor de 20% de la información es numérica y se estudia fácilmente mediante técnicas estadísticas. Esto significa que 80% es en gran medida invisible, como la materia oscura, que influye silenciosamente en muchos resultados en los negocios y en el mundo en general sin estar sujeto a un estudio científico, objetivo y a escala.
Ahora, con las capacidades de la IA generativa (GenAI), y específicamente los modelos de lenguaje a gran escala (LLM), los científicos pueden examinar estos datos oscuros no estructurados de formas nuevas y emocionantes. Esto conduce a vastas capacidades analíticas modernas que pueden revelar un nuevo significado a la información del mundo. Para los líderes, esta capacidad anuncia un cambio radical y ofrece a los primeros en adoptar la IA una oportunidad única de obtener una verdadera ventaja competitiva.
DÓNDE VIVEN LOS DATOS OSCUROS
La búsqueda para civilizar y aprovechar los conocimientos contenidos en los datos oscuros está en marcha. En el mundo digital moderno, se crea constantemente un bombardeo continuo de datos de texto a través de noticias y publicaciones sociales. Pero estos datos oscuros no se pueden procesar a gran escala con los medios tradicionales.
Un estudio reciente realizado por investigadores y académicos en el ámbito legal planteó la hipótesis de que se podrían encontrar pruebas de violaciones legales ocultas en la mayoría de la información. Se utilizaron varios enfoques de LLM y otros enfoques de IA para diseccionar muestras de los datos, lo que validó la utilidad de estas herramientas para identificar violaciones. Curiosamente, los investigadores demostraron que se podían encontrar pruebas de violaciones legales utilizando IA, e incluso podían asociar esas violaciones con víctimas específicas.
Otros investigadores han demostrado que los LLM se pueden utilizar para codificar datos cualitativos. La codificación implica asignar una designación al texto y, históricamente, la realizan evaluadores humanos. Esto requiere mucho tiempo y, a menudo, implica tomar muestras de los datos en lugar de codificarlos todos (además de que es extremadamente aburrido y difícil de llevar a cabo con altos niveles de precisión).
Una vez que los datos están codificados, se pueden someter a un análisis estadístico adicional. De manera similar, se ha demostrado que ChatGPT se puede utilizar para codificar tweets de manera económica y eficiente con resultados superiores a los de los codificadores humanos. Estos investigadores calcularon que cuesta 0.003 dólares por anotación. Esto es aproximadamente 20 veces más barato que usar codificadores humanos a través de un proceso mecánico de tipo turco.
En cuanto a la atención médica, considera que la ciencia médica progresa a través del análisis cuidadoso de conjuntos de datos numéricos altamente específicos; sin embargo, existe una enorme cantidad de información que se puede encontrar en imágenes, notas médicas, resultados de pruebas y descripciones de estudios científicos.
Por ejemplo, los investigadores señalan que existen muchas aplicaciones prometedoras de los LLM, incluido el análisis de estudios médicos a escala. Si bien existen consideraciones éticas aquí (por ejemplo, garantizar que una IA mal entrenada no recomiende el tratamiento incorrecto), también existe un gran potencial para mejorar la atención médica mediante un mejor uso de los datos científicos y de los pacientes para cuestiones como la detección temprana de enfermedades o la predicción de reacciones a medicamentos específicos en función del perfil único de un individuo.
APROVECHAR LA OPORTUNIDAD COMERCIAL
Muchas empresas no analizan adecuadamente los datos numéricos disponibles, y se estima que los datos incorrectos en sí mismos causan pérdidas de 3.1 billones de dólares por año solo a la economía de Estados Unidos. Si los datos numéricos representan solo 20% de la información total disponible, entonces la oportunidad de comprender y utilizar los datos oscuros a gran escala es transformadora. Si bien la IA generativa puede ayudarte a resumir documentos largos, el beneficio real de los LLM es comprender la información y usar esta información para fundamentar las decisiones comerciales.
Pensemos en los datos de las encuestas a clientes y empleadores, y en los comentarios abiertos que en gran medida no se revisan, o en los muchos otros tipos de información no estructurada que languidecen en bases de datos, como reseñas de productos, comentarios de clientes, datos y currículums de candidatos a puestos de trabajo, análisis financieros de expertos, políticas corporativas, manuales técnicos, contratos y opiniones legales, etc. Estos datos oscuros ahora se pueden cuantificar y estudiar, y no solo una vez, como lo haría un análisis o una auditoría manual típicos, sino de manera continua y a escala.
Recientemente, unos investigadores finlandeses describieron su intento de determinar el valor de utilizar los LLM en el análisis de datos cualitativos. En su enfoque multiagente, dividieron las tareas de IA en varios pasos discretos que incluyen análisis temático, de contenido, narrativo y de discurso, además de un paso que incluso crea teorías a partir del análisis. Después de implementar su enfoque con una variedad de conjuntos de datos, los investigadores descubrieron que los expertos profesionales calificaron muy bien sus resultados automatizados. Si bien este y otros enfoques son bastante nuevos, existe un potencial tremendo para aprovechar los LLM para dar sentido a los conjuntos de datos no estructurados.
GENERACIÓN VS INTELIGENCIA
La mayor parte del mundo tecnológico está estancado en el componente generativo de la inteligencia artificial: imágenes divertidas de ideas fantásticas, resúmenes de documentos largos, ideas para actividades en la fiesta de quinto cumpleaños de tu sobrino, etc. Pero si bien es entretenido y ciertamente ahorra trabajo para las personas, el uso corporativo —a pesar de todo el bombo publicitario— es sorprendentemente bajo. A su vez, muchas empresas que crean herramientas de IA aún no han monetizado con éxito sus inversiones.
La clave para comprender los nuevos esfuerzos por civilizar los datos oscuros no es el aspecto generativo de los LLM, sino su capacidad para comprender de manera inteligente los comandos humanos y llevar a cabo instrucciones. Al utilizar un enfoque generativo aumentado de recuperación (RAG), un usuario puede introducir documentos en un LLM y luego hacerle preguntas sobre esa información o incluso evaluar esa información de una manera específica.
Digamos que tienes que revisar un contrato de 1,000 páginas y necesitas evaluarlo en relación con varios estándares de cumplimiento requeridos por su empleador. Puedes hacerlo a la antigua usanza, que es un proceso extremadamente lento y propenso a errores, o puedes introducirlo en un sistema RAG y calificarlo según los estándares de tu organización. Para ser claros, debes escribir un código para hacer esto y modificarlo para asegurarse de que funcione correctamente, pero una vez hecho, puedes usarlo de forma continua.
Hasta ahora, la IA y el análisis de datos han funcionado mejor utilizando datos numéricos estructurados y organizados, y si bien existen muchas técnicas heredadas para explorar datos no estructurados, como el análisis de sentimientos, el modelado de temas y la extracción de palabras clave, los LLM son excepcionalmente capaces de analizar y manipular datos no numéricos.
El aspecto clave de los LLM que los hace tan buenos para procesar texto, en particular, es que comprenden y pueden llevar a cabo comandos humanos en un grado nunca antes posible. Los usuarios pueden pedirles que analicen un corpus de texto, buscando respuestas a preguntas o información específica, y pueden pedirles que califiquen los resultados obtenidos en una escala de calificación fija. De este modo, la IA convierte los datos cualitativos, que no están sujetos a un análisis estadístico sencillo, en datos cuantitativos significativos que se pueden combinar con datos numéricos nativos y analizar con herramientas estadísticas comunes.
Puede que los físicos no estén ni cerca de comprender la materia oscura, pero las empresas y los investigadores ahora pueden hacer avances reales para civilizar los datos oscuros.