Advertências de proibição voam à medida que os usuários ousam sondar os “pensamentos” do mais recente modelo da OpenAI.

OpenAI realmente não quer que você saiba o que seu último modelo de IA está “pensando”. Desde que a empresa lançou sua família de modelos de IA “Strawberry” na semana passada, anunciando habilidades de raciocínio chamadas de o1-preview e o1-mini, a OpenAI tem enviado e-mails de aviso e ameaças de proibição a qualquer usuário que tente investigar como o modelo funciona.

Ao contrário de modelos de IA anteriores da OpenAI, como GPT-4o, a empresa treinou o o1 especificamente para trabalhar através de um processo de resolução de problemas passo a passo antes de gerar uma resposta. Quando os usuários fazem uma pergunta a um modelo “o1” no ChatGPT, eles têm a opção de ver esse processo de raciocínio escrito na interface do ChatGPT. No entanto, por design, a OpenAI esconde o processo de raciocínio bruto dos usuários, apresentando em vez disso uma interpretação filtrada criada por um segundo modelo de IA.

Nada é mais atraente para os entusiastas do que a informação obscurecida, então a corrida está acontecendo entre hackers e equipes de ataque para tentar descobrir o raciocínio bruto do o1 usando técnicas de jailbreaking ou injeção de comandos que tentam enganar o modelo para revelar seus segredos. Já houve relatos iniciais de alguns sucessos, mas nada foi confirmado com firmeza.

Leia os 10 parágrafos restantes | Comentários

Redação Confraria Tech

Referências:
Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model

Post Views: 3