A Nvidia, fabricante de GPU, anunciou o Magic3D , uma IA generativa que pode produzir modelos 3D a partir de um prompt de texto.
IA generativa para modelagem 3D auxilia na conceituação de componentes com formas complexas e orgânicas. Considerando que a impressão 3D é uma tecnologia ideal para dar vida a essas formas, porque é capaz de produzir estruturas complexas e, ao mesmo tempo, ser econômica.
O Magic3D cria um modelo de malha 3D com textura colorida em 40 minutos. Isso ocorre logo após a empresa inserir um prompt como “Um sapo venenoso azul sentado em um nenúfar”. O resultado obtido, com melhorias, pode ser utilizado em cenas de arte CGI ou videogames. A Nvidia descreve o Magic3D em seu trabalho acadêmico como uma resposta ao DreamFusion , um modelo de texto para 3D lançado pelos pesquisadores do Google em setembro de 2022. Em outras notícias, a Physna Inc. criou um protótipo de IA generativo para modelos e cenas 3D em duas semanas usando 8.000 modelos.
Os pesquisadores do artigo explicaram como essa tecnologia permitirá que qualquer pessoa crie modelos 3D sem a necessidade de treinamento especial. “Uma vez refinada, a tecnologia resultante pode acelerar o desenvolvimento de videogames (e VR) e talvez eventualmente encontrar aplicações em efeitos especiais para cinema e TV. Esperamos que com o Magic3D possamos democratizar a síntese 3D e abrir a criatividade de todos na criação de conteúdo 3D.”
A Nvidia está bem posicionada para progredir na IA. As GPUs da empresa podem criar gráficos realistas usando shaders, que instruem cada pixel em uma imagem sobre como exibir em uma luz específica. O sombreador é calculado para cada pixel, um cálculo repetitivo em vários pixels. As GPUs Nvidia podem renderizar imagens rapidamente devido ao seu design para realizar vários cálculos simples, como sombreamento de pixels, de uma só vez, ao contrário dos microprocessadores Intel ou CPUs de uso geral.
A Nvidia vê os aplicativos de IA como um fator crítico de crescimento, a Bloomberg atribuiu um aumento de US$ 4,6 bilhões na riqueza do fundador da Nvidia, Jensen Huang, à popularidade do ChatGPT – um chatbot de IA.
Que tarefas o Magic3D da Nvidia pode executar?
O Magic3D emprega um método de dois estágios que pega um modelo bruto criado em baixa resolução e o otimiza para uma resolução mais alta, semelhante ao DreamFusion, usando um modelo de texto para imagem para produzir uma imagem 2D que é otimizada em NeRF volumétrico (Neural campo de radiância) dados. Com base nos autores do artigo, a técnica Magic3D resultante pode produzir objetos 3D duas vezes mais rápido que o DreamFusion.
Magic3D também pode realizar edição de malha 3D baseada em prompt. Com um prompt básico e um modelo 3D de baixa resolução, o texto pode ser modificado para alterar o modelo resultante. Além disso, os autores do Magic3D ilustraram a preservação do mesmo assunto em várias gerações (um conceito conhecido como coerência) e a implementação do estilo de uma imagem 2D (como uma pintura cubista) em um modelo 3D.
IA generativa e impressão 3D: um futuro com enorme potencial
Paul Powers, fundador e CEO da Physna Inc. compartilhou seus pensamentos sobre a criação de IA 3D generativa equitativa. O CEO diz que a IA generativa conquistou 2022 e, conseqüentemente, a empresa decidiu mergulhar na combinação de impressão 3D e IA generativa. Embora a Physna seja uma empresa de pesquisa e análise 3D focada em aplicativos de engenharia e design em AR/VR e manufatura, ela construiu um protótipo de IA geradora muito básico para modelos e cenas 3D em 2 semanas usando apenas 8.000 modelos com apenas 3 engenheiros.
Powers explicou ainda mais a razão por trás desse experimento. Ele afirma que a IA generativa conquistou muitas indústrias, mas está atrasada na impressão 3D. As principais razões por trás desse atraso são modelos 3D complicados e falta de dados 3D rotulados. Os modelos 3D têm sido difíceis de criar, vêm em uma variedade de formatos incompatíveis e receberam pouca atenção em comparação com a análise de modelos 2D (texto, imagens, vídeo, etc.). Poucas empresas estão preparadas para se concentrar em 3D porque historicamente tem sido uma questão difícil de superar no nível analítico.
Além disso, a equipe DreamFusion do Google resumiu a segunda edição em seu artigo ano passado. Há menos dados 3D em comparação com dados 2D. A equipe DreamFusion do Google utilizou NeRFs da mesma forma que a equipe Magic3D da Nvidia (Neural Radiance Fields). Eles também são “cascas” vazias no sentido de que carecem de geometria e componentes internos, diz Paul.
Isso significa que os usuários não apenas possuem menos informações sobre o objeto em questão, mas também é difícil fazer suposições sobre a tecnologia. Embora o treinamento em NeRFs possa ser mais útil do que o treinamento em modelos 2D, como apontou a equipe DreamFusion do Google, “NeRFs não é um bom substituto para modelos 3D verdadeiros e rotulados”. Isso significa que, na ausência de uma solução, a IA generativa não terá um desempenho tão bom em 3D quanto em outras áreas no futuro próximo. A empresa realizou ainda alguns experimentos para verificar a compatibilidade da IA generativa com a impressão 3D.
Como a computação GPU melhora a impressão 3D?
A computação GPU envolve o uso de uma GPU (unidade de processamento gráfico) como um coprocessador para agilizar as CPUs para computação tecnológica e científica. Ao descarregar parte do código demorado e de computação intensiva, a GPU acelera os aplicativos baseados em CPU. O restante do aplicativo continua a ser executado na CPU.
Do ponto de vista do usuário, o aplicativo é executado mais rapidamente, pois utiliza o poder de processamento paralelo da GPU para melhorar o desempenho. Esse tipo de computação é conhecido como computação “híbrida” ou “heterogênea”. Uma CPU normalmente tem de quatro a oito núcleos de CPU, enquanto uma GPU normalmente tem centenas de núcleos menores. A GPU obtém seu alto desempenho de computação de sua enorme estrutura paralela.
Os desenvolvedores de aplicativos podem aproveitar o desempenho da arquitetura de GPU paralela empregando o modelo de programação paralela “CUDA” da NVIDIA. O modelo de programação paralela NVIDIA CUDA é suportado por todas as GPUs NVIDIA, incluindo GeForce , Quadro e Tesla. Anteriormente, a Nvidia introduziu uma maneira de converter imagens 2D em modelos 3D.
A estrutura demonstra como é possível inferir forma, textura e luz de uma única imagem, de maneira semelhante ao funcionamento a olho nu. A especialista em relações públicas da NVIDIA, Lauren Finkle, escreveu no blog da empresa: “Feche o olho esquerdo enquanto olha para esta tela. Agora feche o olho direito e abra o esquerdo, você notará que seu campo de visão muda dependendo de qual olho você está usando. Isso porque enquanto vemos em duas dimensões, as imagens capturadas por suas retinas são combinadas para fornecer profundidade e produzir uma sensação de tridimensionalidade.”
A estrutura de renderização da NVIDIA, conhecida como renderizador baseado em interpolação diferenciável, ou DIB-R, tem o potencial de auxiliar e agilizar diferentes áreas de design 3D e robótica, renderizando modelos 3D em segundos. De acordo com Finkle, o mundo 3D em que existimos é realmente visto através de uma lente 2D, conhecida como visão estereoscópica.
A profundidade é criada no cérebro pela fusão de imagens vistas através de cada olho, dando a impressão de uma imagem tridimensional. O DIB-R, que funciona com um princípio semelhante, pode prever a forma, cor, textura e iluminação de uma imagem, transformando a entrada de uma imagem 2D em um mapa. Este mapa é então utilizado para criar uma esfera poligonal, resultando em um modelo 3D que representa o componente na imagem 2D original.
Em outro lugar, Daghan Cam, anteriormente professor da Bartlett School of Architecture da University College London, criou uma arquitetura impressa em 3D impecável usando computação GPU. Cam usou sua experiência com o modelo de programação paralela CUDA e GPUs NVIDIA para ensinar seu sistema de fabricação robótica a utilizar algoritmos para terminar suas estruturas projetadas abstratamente antes de imprimir em 3D um protótipo impresso em 3D.
Cam recorreu à Boston Limited e à Materialize para imprimir em 3D seu projeto de protótipo modernista depois de terminar o modelo 3D com uma placa de vídeo Quadro K6000 e um acelerador de GPU Tesla K40. Mamute de alta resolução de Materialize, uma impressora de estereolitografia, capaz de produzir impressões em grande escala e complexas em uma única peça, foi empregada para imprimir em 3D o protótipo. O protótipo completo era intrincado, abstrato e extremamente agradável aos olhos, e parecia perfeitamente adequado para exibição no MOMA ou no Louvre. Para saber mais leia a matéria completa no site.
Para continuar por dentro das principais notícias do mundo da indústria acesse o nosso site.