IA pareidolia: As máquinas podem detectar rostos em objetos inanimados?


0

Em 1994, a designer de joias da Flórida, Diana Duyser, descobriu o que acreditava ser a imagem da Virgem Maria em uma torrada de queijo grelhado, que ela preservou e mais tarde leiloou por $28.000. Mas o quanto realmente entendemos sobre a pareidolia, o fenômeno de ver rostos e padrões em objetos quando eles não estão realmente lá?

Um novo estudo do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) mergulha nesse fenômeno, introduzindo um extenso conjunto de dados humano-rotulado de 5.000 imagens pareidólicas, superando em muito as coleções anteriores. Usando esse conjunto de dados, a equipe descobriu vários resultados surpreendentes sobre as diferenças entre a percepção humana e de máquinas, e como a capacidade de ver rostos em uma fatia de pão pode ter salvo a vida de seus parentes distantes.

“O fenômeno da pareidolia facial sempre fascinou os psicólogos, mas foi largamente inexplorado na comunidade de visão computacional”, diz Mark Hamilton, estudante de doutorado do MIT em engenharia elétrica e ciência da computação, afiliado ao CSAIL e pesquisador principal do trabalho. “Queríamos criar um recurso que pudesse nos ajudar a entender como tanto os humanos quanto os sistemas de IA processam esses rostos ilusórios.”

Então, o que todos esses rostos falsos revelaram? Para começar, os modelos de IA não parecem reconhecer rostos pareidólicos como nós. Surpreendentemente, a equipe descobriu que não foi até que treinaram algoritmos para reconhecer rostos de animais que eles se tornaram significativamente melhores em detectar rostos pareidólicos. Essa conexão inesperada sugere um possível elo evolutivo entre nossa capacidade de detectar rostos de animais – crucial para a sobrevivência – e nossa tendência a ver rostos em objetos inanimados.

Outra descoberta intrigante é o que os pesquisadores chamam de “Zona de Ouro da Pareidolia”, uma classe de imagens onde a pareidolia é mais provável de ocorrer. “Existe uma faixa específica de complexidade visual onde tanto os humanos quanto as máquinas são mais propensos a perceber rostos em objetos não faciais”, diz William T. Freeman, professor do MIT de engenharia elétrica e ciência da computação e investigador principal do projeto. “Muito simples, e não há detalhes suficientes para formar um rosto. Muito complexo, e se torna ruído visual.”

Para descobrir isso, a equipe desenvolveu uma equação que modela como as pessoas e os algoritmos detectam rostos ilusórios. Ao analisar essa equação, eles encontraram um claro “pico pareidólico” onde a probabilidade de ver rostos é maior, correspondendo a imagens que têm “apenas a quantidade certa” de complexidade. Essa “zona de ouro” prevista foi então validada em testes com sujeitos humanos reais e sistemas de detecção de rostos de IA.

Este novo conjunto de dados, “Rostos em Coisas”, supera os de estudos anteriores que tipicamente usavam apenas 20-30 estímulos. Essa escala permitiu aos pesquisadores explorar como os algoritmos de detecção de rostos de última geração se comportavam após o ajuste fino em rostos pareidólicos, mostrando que não apenas esses algoritmos poderiam ser editados para detectar esses rostos, mas também poderiam atuar como um substituto de silício para nosso próprio cérebro, permitindo à equipe fazer e responder perguntas sobre as origens da detecção de rostos pareidólicos que são impossíveis de fazer em humanos.

Para construir este conjunto de dados, a equipe curou aproximadamente 20.000 imagens candidatas do conjunto de dados LAION-5B, que foram então meticulosamente rotuladas e avaliadas por anotadores humanos. Esse processo envolveu desenhar caixas delimitadoras ao redor de rostos percebidos e responder a perguntas detalhadas sobre cada rosto, como a emoção percebida, idade e se o rosto era acidental ou intencional. “Reunir e rotular milhares de imagens foi uma tarefa monumental”, diz Hamilton. “Muito do conjunto de dados deve sua existência à minha mãe”, uma banqueira aposentada, “que passou incontáveis horas rotulando imagens amorosamente para nossa análise.”

O estudo também tem aplicações potenciais na melhoria de sistemas de detecção de rostos, reduzindo falsos positivos, o que poderia ter implicações em áreas como carros autônomos, interação humano-computador e robótica. O conjunto de dados e os modelos também poderiam ajudar em áreas como design de produtos, onde entender e controlar a pareidolia poderia criar produtos melhores. “Imagine poder ajustar automaticamente o design de um carro ou de um brinquedo infantil para que pareça mais amigável, ou garantir que um dispositivo médico não pareça inadvertidamente ameaçador”, diz Hamilton.

“É fascinante como os humanos interpretam instintivamente objetos inanimados com características humanas. Por exemplo, quando você olha para uma tomada elétrica, você pode imediatamente imaginá-la cantando, e até mesmo imaginar como ela ‘moveria os lábios’. No entanto, os algoritmos não reconhecem naturalmente esses rostos caricatos da mesma forma que nós”, diz Hamilton. “Isso levanta questões intrigantes: O que explica essa diferença entre a percepção humana e a interpretação algorítmica? A pareidolia é benéfica ou prejudicial? Por que os algoritmos não experimentam esse efeito como nós? Essas questões despertaram nossa investigação, já que esse fenômeno psicológico clássico em humanos não havia sido amplamente explorado em algoritmos.”

À medida que os pesquisadores se preparam para compartilhar seu conjunto de dados com a comunidade científica, eles já estão olhando para o futuro. Trabalhos futuros podem envolver o treinamento de modelos de visão-linguagem para entender e descrever rostos pareidólicos, potencialmente levando a sistemas de IA que podem interagir com estímulos visuais de maneira mais semelhante aos humanos.

“Este é um artigo encantador! É divertido de ler e me faz pensar. Hamilton et al. propõem uma pergunta tentadora: Por que vemos rostos nas coisas?”, diz Pietro Perona, Professor de Engenharia Elétrica da Caltech, que não esteve envolvido no trabalho. “Como eles apontam, aprender com exemplos, incluindo rostos de animais, vai apenas até a metade para explicar o fenômeno. Acredito que refletir sobre essa questão nos ensinará algo importante sobre como nosso sistema visual generaliza além do treinamento que recebe ao longo da vida.”

Os coautores de Hamilton e Freeman incluem Simon Stent, cientista de pesquisa do Instituto de Pesquisa da Toyota; Ruth Rosenholtz, cientista principal do Departamento de Ciências Cerebrais e Cognitivas, cientista de pesquisa da NVIDIA e ex-membro do CSAIL; e os afiliados do CSAIL, a pós-doutora Vasha DuTell, Anne Harrington MEng ’23 e a cientista de pesquisa Jennifer Corbett. Seu trabalho foi apoiado, em parte, pela National Science Foundation e pela Bolsa de Oportunidades de Pesquisa Educacional do CSAIL (METEOR), sendo patrocinado pelo Laboratório de Pesquisa da Força Aérea dos Estados Unidos e pelo Acelerador de Inteligência Artificial da Força Aérea dos Estados Unidos. O MIT SuperCloud e o Centro de Supercomputação do Laboratório Lincoln forneceram recursos de HPC para os resultados dos pesquisadores.

Este trabalho está sendo apresentado esta semana na Conferência Europeia sobre Visão Computacional.

Redação Confraria Tech.

Referências:
AI pareidolia: Can machines spot faces in inanimate objects?


Like it? Share with your friends!

0
admin