Point-E: Como o sucessor do Dall-E da OpenAI usa a IA para esculpir os seus sonhos em 3D
A OpenAI tem estado ocupada no último ano. Tem sido tema de conversa na Internet pelos seus dois grandes projetos: Dall-E 2 e ChatGPT. Entre estas duas plataformas maciças de inteligência artificial, a empresa ajudou a gerar imagens e longas resmas de textos a partir de nada mais do que um “pronto-a-ser redigido”.
Agora, a empresa já está de volta com um terceiro conceito, deixando-o entrar pouco antes do Natal para despertar o interesse de todos. Este terceiro, agora chamado Point-E, segue um padrão semelhante, criando conteúdo apenas a partir dos seus pedidos, avança a “Science Focus”.
O que é o Point-E e como funciona?
Segundo a mesma fonte, em muitos aspetos, o Ponto E é um sucessor do Dall-E 2, mesmo seguindo a mesma convenção de nomenclatura. Onde Dall-E foi usado para criar imagens a partir do zero, Point-E está a levar as coisas um passo mais longe, transformando essas imagens em modelos 3D.
Anunciado num trabalho de pesquisa publicado pela equipa do OpenAI, o Point-E trabalha em duas partes: primeiro utilizando uma IA texto-imagem para converter a sua solicitação de palavras numa imagem, depois utilizando uma segunda função para transformar essa imagem num modelo 3D.
Onde Dall-E 2 trabalha para criar uma imagem da mais alta qualidade possível, Point-E cria uma imagem de muito menor qualidade, precisando simplesmente do suficiente para formar um modelo 3D.
Ao contrário de um modelo 3D tradicional, o Point-E não está, de facto, a gerar toda uma estrutura fluida. Em vez disso, está a gerar uma nuvem de pontos (daí o nome). Isto significa simplesmente um número de pontos espalhados por um espaço que representa uma forma 3D.
Isso obviamente não pareceria um lote inteiro, e é por isso que o modelo tem uma segunda fase. A equipa treinou um modelo de IA adicional para converter os pontos em malhas. Isto é algo que se assemelha melhor às formas, moldes e bordas de um objeto.
No entanto, quando se lida com estes muitos fatores, as coisas nem sempre vão ser perfeitas. Como a OpenAI notou no trabalho de investigação, os objetos podem ser pontos em falta ou resultar em objetos em bloco.
Treino do modelo
Para que o modelo funcionasse, a equipa teve de o treinar. A primeira metade do processo, a secção texto-para-imagem, foi treinada com base em instruções de redação, tal como anteriormente o Dall-E 2. Isto implicava imagens que eram acompanhadas por “alt-textos “ para ajudar o modelo a compreender o que estava na imagem.
O modelo “imagem-para-3D” teve então de ser treinado de uma forma semelhante. Foi dada uma formação semelhante, oferecendo um conjunto de imagens que foram emparelhadas com modelos 3D para que Point-E pudesse compreender a relação entre os dois.
Esta formação foi repetida milhões de vezes, utilizando um enorme número de conjuntos de dados. Nos seus primeiros testes do modelo, o Ponto E foi capaz de reproduzir estimativas aproximadas coloridas dos pedidos através de nuvens de pontos, mas estavam ainda muito longe de serem representações precisas.
Esta tecnologia ainda está na sua fase inicial, e provavelmente demorará um pouco mais até vermos o Point-E a fazer renderizações 3D precisas, e ainda mais até o público interagir com ele como Dall-E 2 ou ChatGPT.
Como usar o Point-E
Embora o Point-E não tenha sido lançado na sua forma oficial através da OpenAI, está disponível via Github para os mais tecnicamente interessados. Alternativamente, pode testar a tecnologia através de Hugging Face – uma comunidade de aprendizagem de máquinas que já acolheu anteriormente outros grandes programas de inteligência artificial.
Neste momento, a tecnologia está na sua fase inicial e, portanto, não vai produzir as respostas mais precisas, mas dá uma ideia do futuro da tecnologia.
Não está ainda claro se a OpenAI irá oferecer o serviço ao público quando o lançarem, ou se será uma ocasião apenas de convite no início.
A aplicação de Point-E
Com a maioria dos programas modernos de inteligência artificial, surge rapidamente a questão de “para que foram concebidos”. Tanto com o ChatGPT como com o Dall-E 2, há preocupações crescentes em torno destas plataformas, substituindo artistas e criativos.
As mesmas preocupações irão provavelmente surgir para o Point-E. O design 3D é uma indústria enorme e, embora o Point-E não seja capaz de corresponder com precisão ao trabalho de um artista 3D neste momento, poderá rivalizar com este campo no futuro.
“No entanto, com relatórios da OpenAI a gastar milhões todos os meses para manter estes projetos em andamento, este tipo de software será provavelmente dispendioso de utilizar e executar, especialmente para algo tão complicado como a renderização 3D”, conclui a “Science Focus”.