Em junho, a Runway lançou um novo modelo de síntese de texto para vídeo chamado Gen-3 Alpha. Ele converte descrições escritas chamadas “prompts” em videoclipes em HD sem som. Desde então, tivemos a chance de usá-lo e queríamos compartilhar nossos resultados. Nossos testes mostram que a elaboração cuidadosa do prompt não é tão importante quanto a correspondência de conceitos provavelmente encontrados nos dados de treinamento, e que alcançar resultados divertidos provavelmente requer muitas gerações e uma seleção criteriosa.
Um tema duradouro de todos os modelos de IA generativa que vimos desde 2022 é que eles podem ser excelentes em misturar conceitos encontrados nos dados de treinamento, mas geralmente são muito ruins em generalizar (aplicar “conhecimento” aprendido a novas situações nas quais o modelo não foi explicitamente treinado). Isso significa que eles podem se destacar em novidades estilísticas e temáticas, mas têm dificuldade com novidades estruturais fundamentais que vão além dos dados de treinamento.
O que tudo isso significa? No caso do Runway Gen-3, a falta de generalização significa que você pode pedir um navio veleiro em uma xícara de café borbulhante, e desde que os dados de treinamento do Gen-3 incluam exemplos de vídeo de navios veleiros e café borbulhante, essa é uma combinação “fácil” e nova para o modelo fazer de forma bastante convincente. Mas se você pedir um gato bebendo uma lata de cerveja (em um comercial de cerveja), geralmente falhará porque provavelmente não há muitos vídeos de gatos fotorrealistas bebendo bebidas humanas nos dados de treinamento. Em vez disso, o modelo irá se basear no que aprendeu sobre vídeos de gatos e vídeos de comerciais de cerveja e combiná-los. O resultado é um gato com mãos humanas tomando uma cerveja.
Redação Confraria Tech
Referências:
We made a cat drink a beer with Runway’s AI video generator, and it sprouted hands