De texto a gráficos 3D, siguiente paso de la IA generativa

tecno020424 — Sanja Fidler, vicepresidenta de Investigación de inteligencia artificial de Nvidia, explicó que en el mercado ya existen modelos de inteligencia artificial generativa capaces de generar un gráfico 3D con “resultados impresionantes”

Sanja Fidler, vicepresidenta de Investigación de inteligencia artificial de Nvidia, explicó que en el mercado ya existen modelos de inteligencia artificial generativa capaces de generar un gráfico 3D con “resultados impresionantes”

Agencia Excélsior

La inteligencia artificial generativa es utilizada por muchas personas para generar imágenes y videos por medio de una instrucción en texto, por lo que el siguiente paso para Nvidia es usar esta tecnología para desarrollar rápidamente gráficos en tercera dimensión (3D) gracias al nuevo modelo Latte3D.

Sanja Fidler, vicepresidenta de Investigación de inteligencia artificial de Nvidia, explicó que en el mercado ya existen modelos de inteligencia artificial generativa capaces de generar un gráfico 3D con “resultados impresionantes”, sin embargo, obtener dicho resultado toma bastante tiempo.

Ante esto, la tecnológica desarrolló un modelo bautizado como Latte3D (Large-scale Amortized Text-to-Enhanced3D, en inglés) que es capaz de generar gráficos 3D en pocos segundos.

Hace un año, un modelo de inteligencia artificial tardaba una hora en generar imágenes 3D de esta calidad, pero ahora tarda entre 10 y 12 segundos. Con la capacidad de generar resultados mucho más rápido, los creadores de toda la industria pueden convertir texto en 3D casi en tiempo real”, aseguró Fidler al presentar el modelo en Nvidia GTC 2024.

Esto es posible porque Latte3D utiliza una arquitectura escalable, puede utilizar desde procesadores Nvidia RTX A6000, y que aprovecha los datos 3D usados en el entrenamiento para mejorar la calidad y la solidez del resultado, aunque se tengan indicaciones en texto diversas o complejas. Adicionalmente, puede producir mallas texturizadas muy detalladas y genera resultados en tan sólo 400 milisegundos.

Durante las pruebas de Latte3D, Fidler demostró que el modelo también es capaz de generar varias opciones para que el usuario pueda elegir la más adecuada.

Una vez seleccionado el objeto, el usuario puede optimizarlo para que tenga una mayor calidad y transferirlo a otros programas como Omniverse u otros compatibles.

La vicepresidenta de Investigación de inteligencia artificial de Nvidia consideró que Latte3D podría utilizarse para hacer más fácil el trabajo de los desarrolladores de videojuegos, publicidad, en proyectos de diseño o en cualquier aplicación que requiera un entorno virtual, como puede ser la realidad virtual o la realidad aumentada.

Lamentablemente, Latte3D aún se mantiene como un proyecto de investigación y está muy limitado, por lo que Nvidia no tiene una fecha para que llegue al mercado.

Por ejemplo, actualmente está limitado a generar animales u objetos cotidianos y los resultados no se pueden vectorizar para posteriormente modificarlos.

Fidler confió en que Latte3D llegará al mercado en un futuro y con mejoras como podría ser la capacidad de generar texto en gráficos en cuarta dimensión (4D) o animaciones en 3D.