O novo modelo vem em três versões. A Stable Diffusion 3.5 Large é a mais poderosa do grupo, oferecendo a melhor qualidade de imagem e liderando a indústria em aderência aos prompts. A Stability AI afirma que este modelo é adequado para usos profissionais, gerando imagens em resolução de 1 MP.
Por outro lado, a Stable Diffusion 3.5 Large Turbo é uma versão “destilada” do modelo maior, priorizando a eficiência em vez da máxima qualidade. Mesmo assim, a Stability AI garante que a variante Turbo ainda produz “imagens de alta qualidade com excepcional aderência aos prompts” em apenas quatro etapas.
Por fim, temos a Stable Diffusion 3.5 Medium, que conta com 2,5 bilhões de parâmetros e foi projetada para rodar em hardware comum. Este modelo busca equilibrar qualidade e simplicidade, permitindo a geração de imagens com resoluções entre 0,25 e 2 megapixels. No entanto, ao contrário das duas primeiras versões, a Stable Diffusion 3.5 Medium só estará disponível a partir de 29 de outubro.
Essa nova linha de produtos surge após a polêmica da Stable Diffusion 3 Medium, lançada em junho, que não atendeu às expectativas da empresa e da comunidade. A Stability AI reconheceu que a versão anterior gerou resultados grotescos em resposta a comandos que não pediam por isso. As constantes menções à excepcional aderência aos prompts na nova versão não são mera coincidência.
Embora a Stability AI tenha mencionado brevemente em seu comunicado que a série 3.5 conta com novos filtros para melhor refletir a diversidade humana, a empresa descreve os resultados das novas versões como “representativos do mundo, não apenas de um tipo de pessoa”, com diferentes tons de pele e características, sem a necessidade de instruções extensivas.
Esperamos que este modelo seja sofisticado o suficiente para lidar com sutilezas e sensibilidades históricas, ao contrário do recente fiasco do Google. A inteligência artificial Gemini, por exemplo, produziu coleções de “fotos” históricas que eram absurdamente imprecisas, como nazistas etnicamente diversos e os Pais Fundadores dos EUA. A reação foi tão intensa que o Google levou seis meses para reintegrar gerações humanas em seus modelos.
Redação Confraria Tech.
Referências:
Stable Diffusion 3.5 follows your prompts more closely and generates more diverse people