Stable Diffusion 3.5 segue suas instruções com mais precisão e gera pessoas mais diversas.


0

A Stable Diffusion, uma alternativa de código aberto aos geradores de imagens por inteligência artificial como Midjourney e DALL-E, acaba de receber uma atualização significativa: a versão 3.5. Este novo modelo busca corrigir algumas falhas da versão anterior, a Stable Diffusion 3 Medium, que não agradou a muitos usuários. Segundo a Stability AI, o modelo 3.5 se destaca por sua capacidade de seguir os comandos dados (ou prompts) de forma mais eficaz do que outros geradores de imagem, competindo até com modelos maiores em termos de qualidade de saída. Além disso, ele foi ajustado para oferecer uma diversidade maior de estilos, tons de pele e características, sem a necessidade de instruções explícitas para isso.

O novo modelo vem em três versões. A Stable Diffusion 3.5 Large é a mais poderosa do grupo, oferecendo a melhor qualidade de imagem e liderando a indústria em aderência aos prompts. A Stability AI afirma que este modelo é adequado para usos profissionais, gerando imagens em resolução de 1 MP.

Por outro lado, a Stable Diffusion 3.5 Large Turbo é uma versão “destilada” do modelo maior, priorizando a eficiência em vez da máxima qualidade. Mesmo assim, a Stability AI garante que a variante Turbo ainda produz “imagens de alta qualidade com excepcional aderência aos prompts” em apenas quatro etapas.

Por fim, temos a Stable Diffusion 3.5 Medium, que conta com 2,5 bilhões de parâmetros e foi projetada para rodar em hardware comum. Este modelo busca equilibrar qualidade e simplicidade, permitindo a geração de imagens com resoluções entre 0,25 e 2 megapixels. No entanto, ao contrário das duas primeiras versões, a Stable Diffusion 3.5 Medium só estará disponível a partir de 29 de outubro.

Essa nova linha de produtos surge após a polêmica da Stable Diffusion 3 Medium, lançada em junho, que não atendeu às expectativas da empresa e da comunidade. A Stability AI reconheceu que a versão anterior gerou resultados grotescos em resposta a comandos que não pediam por isso. As constantes menções à excepcional aderência aos prompts na nova versão não são mera coincidência.

Embora a Stability AI tenha mencionado brevemente em seu comunicado que a série 3.5 conta com novos filtros para melhor refletir a diversidade humana, a empresa descreve os resultados das novas versões como “representativos do mundo, não apenas de um tipo de pessoa”, com diferentes tons de pele e características, sem a necessidade de instruções extensivas.

Esperamos que este modelo seja sofisticado o suficiente para lidar com sutilezas e sensibilidades históricas, ao contrário do recente fiasco do Google. A inteligência artificial Gemini, por exemplo, produziu coleções de “fotos” históricas que eram absurdamente imprecisas, como nazistas etnicamente diversos e os Pais Fundadores dos EUA. A reação foi tão intensa que o Google levou seis meses para reintegrar gerações humanas em seus modelos.

Redação Confraria Tech.

Referências:
Stable Diffusion 3.5 follows your prompts more closely and generates more diverse people


Like it? Share with your friends!

0
admin

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube and Vimeo Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format