Manu Sharma, durante el evento Transform 2022 de VentureBeat, le dijo a la audiencia que “es importante que las organizaciones construyan motores de datos que utilicen los datos correctos. Y en la etapa correcta de los ciclos de vida de sus proyectos”.
El fundador y CEO de Labelbox explicó que la “premisa fundamental” del aprendizaje automático supervisado es crear datos anotados o etiquetados. ¿Y qué significa todo esto? Pues aplicar anotaciones semánticas en cualquier información no estructurada, tales como texto y video. La clave para que todo esto funcione es que las anotaciones o etiquetas reflejen una comprensión de la lógica comercial o la aplicación comercial, explicó Sharma.
Después, los datos se alimentan a las redes neuronales, y con la intención de que dichas redes emulen el comportamiento de los datos.
De acuerdo con Sharma: “Labelbox permite el etiquetado de datos en cualquier modalidad (imágenes, video o texto) y en cualquier configuración. La oferta de catálogo de la compañía reúne todos los datos no estructurados en un solo lugar y permite a los equipos segmentar, cortar y trocear los datos para una variedad de aplicaciones.
¿Cuáles son los pasos principales de un motor de datos de IA eficiente?

Sharma describió cuatro “pasos principales” en el flujo de trabajo del motor de datos IA moderno.
- El primero es la creación de datos y la identificación de los “datos correctos”. Estos ayudan a aumentar el rendimiento del modelo.
- El segundo se basa en el etiquetado de datos, entre los cuales se encuentra el etiquetado humano como programático. De acuerdo con su caso de uso, los equipos deben decidir qué estrategias explotar.
- Los pasos tercero y cuarto se basan en entrenamiento, luego prueba y evaluación. Aquí los equipos de ingeniería trabajan para mejorar la calidad de los datos. En otras palabras: de establecer lo que se conoce como “la verdad básica”, identificando los “datos correctos” en el espacio. Y sin etiquetar que debe etiquetarse, y así realizar la “cirugía” requerida, tal y como cambiar parámetros o hiperparámetros.
Según Sharma: “El poder de este motor de datos de IA es que una vez que lo configuras de manera organizada, no hay forma de detenerlo”. La aplicación produce datos, los etiqueta, los modelos se vuelven a entrenar, todo esto crea un “volante” cuyo valor aumenta con el paso del tiempo.
Muchísimas empresas desean construir este volante lo más rápido posible. Ello significa dos cosas: usar mejores datos etiquetados y no entrenar modelos con todos los datos disponibles.
El futuro de la IA sigue bajo supervisión
Sharma dice que una de las cosas más interesantes que están sucediendo en el espacio de la IA es la “reinvención” del procesamiento del lenguaje natural (NLP).
Con la aparición de GPT-3 y BERT, más organizaciones están incorporando modelos NLP en experiencias internas cotidianas o compromisos con los clientes. Dichos modelos pueden imitar comportamientos humanos con rapidez y sin casi datos. “El límite es infinito aquí seguro”, dijo Sharma. Sin embargo, considera que la supervisión llegó para quedarse.
Sharma describió la supervisión como cualquier acto en el que los humanos intervienen o instruyen a una computadora durante el proceso de modelado. Específicamente: “Siempre queremos asegurarnos de que los modelos tomen las decisiones correctas para nosotros, que siempre estén alineados con los intereses de una empresa y reflejen los valores de una empresa. Desde esa perspectiva, [el aprendizaje supervisado] estará aquí por mucho tiempo”.
Esperamos que los modelos de datos de IA sigan mejorando y siendo útiles en muchas empresas.