O Imagen 3 do Google é a versão aprimorada de seu gerador de imagens, chegando ao Gemini. A empresa afirma que o modelo de IA de próxima geração “estabelece um novo padrão de qualidade de imagem” e é construído com salvaguardas para evitar correções excessivas de diversidade, como as estranhas imagens históricas de IA que viralizaram no início deste ano.
“Em uma ampla gama de benchmarks, o Imagen 3 se sai favoravelmente em comparação com outros modelos de geração de imagens disponíveis”, escreveu o Gerente de Produto do Gemini, Dave Citron, em um comunicado à imprensa. A ferramenta permite que você guie a geração de imagens com prompts adicionais se não gostar do que ela produzir na primeira vez.
Citron afirma que o Imagen 3 se sai “favoravelmente” em comparação com a concorrência. Ele também inclui a ferramenta SynthID do Google para marcar imagens, deixando claro que são feitas por IA e não são genuínas.
Citron diz que a capacidade de gerar pessoas retornará nos próximos dias para usuários pagos, meses depois que o Google retirou o recurso. Ele afirma que novas salvaguardas impedirão a geração de “indivíduos fotorealistas identificáveis” – muito distante dos problemáticos deepfakes gerados pelo Grok de Elon Musk. Também estão proibidas crianças e (como em outros geradores de imagens) cenas sangrentas, violentas ou sexuais. O gerente de produto ajusta as expectativas ao dizer que as imagens do Gemini não serão perfeitas, mas promete que a empresa continuará a ouvir o feedback dos usuários e a refinar conforme necessário.
A partir desta semana, o modelo Imagen 3 estará disponível para todos os usuários, mas a reintrodução de imagens com pessoas começará com os usuários pagos. Os usuários avançados, empresariais e corporativos do Gemini que falam inglês podem esperar que a geração de imagens de pessoas retorne “nos próximos dias”.
Inicialmente apresentados na Google I/O 2024, os Gems são chatbots personalizados do Google com instruções criadas pelo usuário. É essencialmente a resposta do Gemini aos GPTs da OpenAI, que o concorrente do Google lançou no final do ano passado. Os Gems começarão a ser lançados nos próximos dias.
“Com os Gems, você pode criar uma equipe de especialistas para ajudá-lo a pensar em um projeto desafiador, inspirar ideias para um evento futuro ou escrever a legenda perfeita para uma postagem em redes sociais”, escreveu Citron. “Seu Gem também pode lembrar um conjunto detalhado de instruções para ajudá-lo a economizar tempo em tarefas tediosas, repetitivas ou difíceis.”
Além do quadro em branco dos Gems personalizados, o Gemini incluirá pré-fabricados para “ajudá-lo a começar” e inspirar novas ideias. Os Gems pré-fabricados incluem:
– Coach de aprendizado – para ajudá-lo a entender tópicos complexos
– Brainstormer – para inspirar novas ideias
– Guia de carreira – orientá-lo em atualizações de habilidades, decisões e metas
– Editor de escrita – fornecer feedback construtivo sobre gramática, tom e estrutura
– Parceiro de codificação – aprimorar habilidades de codificação para desenvolvedores e inspirar novos projetos
Os Gems começarão a ser lançados hoje em desktop e dispositivos móveis. No entanto, eles só estão disponíveis para assinantes avançados, empresariais e corporativos do Gemini, então você precisará de um plano pago para conferi-los.
Redação Confraria Tech
Referências:
Gemini will soon generate AI images of people again with the upgraded Imagen 3