Para resolver essa lacuna, uma técnica recentemente desenvolvida chamada Score Distillation utiliza modelos de geração de imagens 2D para criar formas 3D. Infelizmente, o resultado muitas vezes acaba sendo borrado ou com um aspecto de desenho animado. Pesquisadores do MIT se debruçaram sobre as relações e diferenças entre os algoritmos que geram imagens 2D e formas 3D, identificando a causa raiz da qualidade inferior dos modelos 3D. Com isso, eles propuseram uma solução simples para o Score Distillation, que permite a geração de formas 3D nítidas e de alta qualidade, comparáveis às melhores imagens 2D geradas por modelos de IA.
Outras abordagens tentam resolver o problema por meio de re-treinamento ou ajustes nos modelos de IA generativa, o que pode ser caro e demorado. No entanto, a técnica dos pesquisadores do MIT alcança uma qualidade de forma 3D igual ou superior a essas abordagens, sem a necessidade de treinamento adicional ou pós-processamento complexo.
Ao identificar a causa do problema, os pesquisadores também melhoraram a compreensão matemática do Score Distillation e técnicas relacionadas, abrindo caminho para futuros avanços. “Agora sabemos para onde devemos ir, o que nos permite encontrar soluções mais eficientes, mais rápidas e de maior qualidade”, afirma Artem Lukoianov, estudante de pós-graduação em engenharia elétrica e ciência da computação, que é o autor principal de um artigo sobre essa técnica. “A longo prazo, nosso trabalho pode ajudar a facilitar o processo, atuando como um co-piloto para designers, tornando mais fácil criar formas 3D mais realistas.”
Lukoianov conta com a colaboração de outros pesquisadores, incluindo Haitz Sáez de Ocáriz Borde, da Universidade de Oxford, e Kristjan Greenewald, do MIT-IBM Watson AI Lab, entre outros. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
Os modelos de difusão, como o DALL-E, são um tipo de modelo de IA generativa que pode produzir imagens realistas a partir de ruído aleatório. Para treinar esses modelos, os pesquisadores adicionam ruído às imagens e depois ensinam o modelo a reverter o processo, removendo o ruído. Essa técnica é o que permite que os modelos criem imagens com base em comandos de texto.
No entanto, os modelos de difusão têm um desempenho inferior na geração direta de formas 3D realistas, devido à falta de dados 3D suficientes para o treinamento. Para contornar esse problema, foi desenvolvida em 2022 a técnica chamada Score Distillation Sampling (SDS), que usa um modelo de difusão pré-treinado para combinar imagens 2D em uma representação 3D.
O processo envolve começar com uma representação 3D aleatória, renderizar uma visão 2D de um objeto desejado a partir de um ângulo de câmera aleatório, adicionar ruído a essa imagem, remover o ruído com um modelo de difusão e, em seguida, otimizar a representação 3D aleatória para que ela corresponda à imagem sem ruído. Esses passos são repetidos até que o objeto 3D desejado seja gerado. Contudo, as formas 3D produzidas dessa maneira tendem a parecer borradas ou excessivamente saturadas.
“Isso tem sido um gargalo há algum tempo. Sabemos que o modelo subjacente é capaz de fazer melhor, mas as pessoas não sabiam por que isso acontecia com as formas 3D”, explica Lukoianov. Os pesquisadores do MIT analisaram os passos do SDS e identificaram uma incompatibilidade entre uma fórmula que é parte essencial do processo e sua contraparte nos modelos de difusão 2D. Essa fórmula orienta o modelo sobre como atualizar a representação aleatória, adicionando e removendo ruído, passo a passo, para que ela se pareça mais com a imagem desejada.
Como parte dessa fórmula envolve uma equação que é complexa demais para ser resolvida de forma eficiente, o SDS a substitui por ruído amostrado aleatoriamente em cada etapa. Os pesquisadores descobriram que esse ruído leva a formas 3D borradas ou com aspecto de desenho animado.
Em vez de tentar resolver essa fórmula complicada de forma precisa, os pesquisadores testaram técnicas de aproximação até identificarem a melhor. Em vez de amostrar aleatoriamente o termo de ruído, a técnica de aproximação deles infere o termo ausente a partir da renderização atual da forma 3D. “Ao fazer isso, como a análise no artigo prevê, gera formas 3D que parecem nítidas e realistas”, afirma Lukoianov.
Além disso, os pesquisadores aumentaram a resolução da renderização da imagem e ajustaram alguns parâmetros do modelo para melhorar ainda mais a qualidade da forma 3D. No final, conseguiram usar um modelo de difusão de imagem pré-treinado disponível no mercado para criar formas 3D realistas e suaves, sem a necessidade de re-treinamento caro. Os objetos 3D gerados são igualmente nítidos em comparação com aqueles produzidos por outros métodos que dependem de soluções improvisadas.
“Experimentar cegamente com diferentes parâmetros, às vezes funciona e às vezes não, mas você não sabe por quê. Sabemos que esta é a equação que precisamos resolver. Agora, isso nos permite pensar em maneiras mais eficientes de solucioná-la”, explica Lukoianov.
Como o método deles depende de um modelo de difusão pré-treinado, ele herda os preconceitos e limitações desse modelo, tornando-o suscetível a alucinações e outras falhas. Melhorar o modelo de difusão subjacente aprimoraria o processo. Além de estudar a fórmula para entender como resolvê-la de forma mais eficaz, os pesquisadores estão interessados em explorar como essas percepções podem melhorar as técnicas de edição de imagens.
Esse trabalho é financiado, em parte, pelo Toyota Research Institute, pela Fundação Nacional de Ciência dos EUA, pela Agência de Ciência e Tecnologia de Defesa de Cingapura, pela Agência de Projetos de Pesquisa Avançada de Inteligência dos EUA, pelo Amazon Science Hub, IBM, pelo Escritório de Pesquisa do Exército dos EUA, pelo programa CSAIL Future of Data, pela Wistron Corporation e pelo MIT-IBM Watson AI Laboratory.
Redação Confraria Tech.
Referências:
A new way to create realistic 3D shapes using generative AI