segunda-feira, 26 de novembro de 2012

Cientista cria sistema mais preciso de busca de imagens na web


Universidade de Princeton mantém maior banco de dados visual do mundo organizado por um sistema criado para reconhecer imagens independente de palavras-chave

The New York Times | Ig


Você pode pensar que é possível encontrar qualquer coisa na internet. Porém, mesmo enquanto imagens e vídeos rapidamente dominam a web, os mecanismos de busca geralmente só encontram certa imagem se o texto inserido corresponder ao texto com qual ela foi rotulada. E os rótulos podem ser pouco confiáveis, inúteis ("peludo" em vez de "coelho") ou simplesmente inexistentes.



Reprodução
Google já usou ImageNet para testar seu algoritmo de busca de imagens

Para eliminar esses limites, cientistas precisam criar uma nova geração de tecnologias de busca visual – caso contrário, como disse recentemente a cientista da computação Fei-Fei Li, a internet estará correndo o risco de "ficar no escuro".

Agora, junto a cientistas de Princeton, Li, de 36 anos, construiu o maior banco de dados visual do mundo – num esforço para imitar o sistema de visão humano. Com mais de 14 milhões de objetos rotulados, de vidros vulcânicos a orangotangos e jaguatiricas, o banco de dados oferece um recurso vital para pesquisadores de visão computacional.

Os rótulos foram criados por seres humanos. Mas agora máquinas podem aprender a reconhecer objetos similares sem rótulo, possibilitando um notável aumento na precisão dos reconhecimentos.

Neste verão do Hemisfério Norte, por exemplo, dois cientistas da computação do Google, Andrew Y. Ng e Jeff Dean, testaram o novo sistema, conhecido como ImageNet, numa enorme coleção de fotos rotuladas. O sistema teve um desempenho quase duas vezes melhor do que algoritmos anteriores de "rede neural" – modelos de software que tentam replicar funções cerebrais humanas.

Os pesquisadores do Google não foram os únicos a usar o banco de dados do ImageNet para testar seus algoritmos; desde 2009, mais de 300 publicações científicas o usaram ou citaram.

A visão computacional é um dos maiores problemas para os desenvolvedores de inteligência artificial e robôs. Uma enorme parte do cérebro humano é dedicada à visão, e cientistas ainda lutam para desvendar os mecanismos biológicos pelos quais os humanos reconhecem objetos.

"Meu sonho sempre foi criar um sistema de visão que reconheça o mundo como fazem os humanos", disse Li, cujo colega de Princeton é o cientista da computação Kai Li (sem parentesco).

Quando Fei-Fei Li começou a montar seu sistema, em 2007, as únicas alternativas eram bancos de dados que reconheciam apenas um punhado de tipos de objetos. O desafio era como aumentar a escala do sistema para deixá-lo mais próximo das capacidades humanas, especialmente com a torrente cada vez maior de imagens online.

"Na era da internet, de repente somos confrontados com uma explosão em termos de dados de imagens", afirmou ela. "O Facebook tem 200 bilhões de imagens, e as pessoas carregam 72 horas de novos vídeos no YouTube a cada minuto".

Li fez um cálculo rápido e determinou que, se passasse a tarefa a um de seus alunos de pós-graduação, isso poderia levar décadas. Felizmente, embora a internet tenha feito surgir uma gigantesca pilha de imagens digitais, ela também oferece um caminho para a luz.

Li percebeu que o Mechanical Turk, o sistema da Amazon.com para organizar milhares de humanos na realização de pequenas tarefas como descrever os conteúdos de uma foto, era a maneira perfeita para montar seu banco de dados.

Usando fundos de pesquisa disponíveis na universidade, o projeto de banco de dados visual ImageNet se tornou o maior usuário acadêmico mundial de trabalhadores do Mechanical Turk, conhecidos como "turkers". A cada ano, o ImageNet emprega de 20 a 30 mil pessoas que são automaticamente apresentadas a imagens para rotular, recebendo um minúsculo pagamento por cada uma.

O turker médio pode identificar cerca de 250 imagens em cinco minutos. O banco de dados do ImageNet possui hoje 14.197.122 imagens, divididas em 21.841 categorias.

"Seu tamanho é de longe muito maior do que qualquer outro serviço disponível na comunidade da visão computacional, e ajudou alguns pesquisadores na criação de algoritmos que nunca poderiam ter sido produzidos de outra forma", explicou Samy Bengio, cientista de pesquisa do Google.

Ele acrescentou que o ImageNet não é perfeito. Para organizar a vasta coleção de imagens, Li usa o WordNet, banco de dados de palavras em inglês criado pelo psicólogo George A. Miller, de Princeton, que morreu em julho passado aos 92 anos. Para Bengio, as categorias são um pouco elevadas demais.

"Eu preferiria que as categorias escolhidas no ImageNet refletissem mais a distribuição de interesses da população", afirmou ele. "A maioria das pessoas está mais interessada em Lady Gaga ou no iPod Mini do que numa espécie rara de dinossauro".

Mesmo assim, o projeto continua. Jia Deng, um dos alunos de Li, desenvolveu um classificador de imagens que ele chama, por brincadeira, de infalível. Como o WordNet é organizado numa hierarquia de categorias, o software pode simplesmente escolher um nível de abstração onde ele tem uma alta probabilidade de estar certo: se não há certeza de que certa foto mostra um coelho, por exemplo, ele vai para o próximo nível (mamíferos) ou um nível acima (animais).

Em um desses níveis, ele quase certamente não estará errado. E Li espera que outros avanços permitam uma precisão ainda maior.

Nenhum comentário:

Postar um comentário