Stable Diffusion 3.5 segue suas instruções com mais precisão e gera pessoas mais diversas.

A Stable Diffusion, uma alternativa de código aberto aos geradores de imagens por inteligência artificial como Midjourney e DALL-E, acaba de receber uma atualização significativa: a versão 3.5. Este novo modelo busca corrigir algumas falhas da versão anterior, a Stable Diffusion 3 Medium, que não agradou a muitos usuários. Segundo a Stability AI, o modelo 3.5 se destaca por sua capacidade de seguir os comandos dados (ou prompts) de forma mais eficaz do que outros geradores de imagem, competindo até com modelos maiores em termos de qualidade de saída. Além disso, ele foi ajustado para oferecer uma diversidade maior de estilos, tons de pele e características, sem a necessidade de instruções explícitas para isso.

O novo modelo vem em três versões. A Stable Diffusion 3.5 Large é a mais poderosa do grupo, oferecendo a melhor qualidade de imagem e liderando a indústria em aderência aos prompts. A Stability AI afirma que este modelo é adequado para usos profissionais, gerando imagens em resolução de 1 MP.

Por outro lado, a Stable Diffusion 3.5 Large Turbo é uma versão “destilada” do modelo maior, priorizando a eficiência em vez da máxima qualidade. Mesmo assim, a Stability AI garante que a variante Turbo ainda produz “imagens de alta qualidade com excepcional aderência aos prompts” em apenas quatro etapas.

Por fim, temos a Stable Diffusion 3.5 Medium, que conta com 2,5 bilhões de parâmetros e foi projetada para rodar em hardware comum. Este modelo busca equilibrar qualidade e simplicidade, permitindo a geração de imagens com resoluções entre 0,25 e 2 megapixels. No entanto, ao contrário das duas primeiras versões, a Stable Diffusion 3.5 Medium só estará disponível a partir de 29 de outubro.

Essa nova linha de produtos surge após a polêmica da Stable Diffusion 3 Medium, lançada em junho, que não atendeu às expectativas da empresa e da comunidade. A Stability AI reconheceu que a versão anterior gerou resultados grotescos em resposta a comandos que não pediam por isso. As constantes menções à excepcional aderência aos prompts na nova versão não são mera coincidência.

Embora a Stability AI tenha mencionado brevemente em seu comunicado que a série 3.5 conta com novos filtros para melhor refletir a diversidade humana, a empresa descreve os resultados das novas versões como “representativos do mundo, não apenas de um tipo de pessoa”, com diferentes tons de pele e características, sem a necessidade de instruções extensivas.

Esperamos que este modelo seja sofisticado o suficiente para lidar com sutilezas e sensibilidades históricas, ao contrário do recente fiasco do Google. A inteligência artificial Gemini, por exemplo, produziu coleções de “fotos” históricas que eram absurdamente imprecisas, como nazistas etnicamente diversos e os Pais Fundadores dos EUA. A reação foi tão intensa que o Google levou seis meses para reintegrar gerações humanas em seus modelos.

Redação Confraria Tech.

Referências:
Stable Diffusion 3.5 follows your prompts more closely and generates more diverse people

Post Views: 0

Like it? Share with your friends!