Siberneticon: Google expande banco de dados para treinamento de inteligência artificial

Projetar sistemas de IA capazes de reconhecimento preciso de pontos de referência (ou seja, distinguir as Cataratas do Niágara de qualquer cascata) e recuperar imagens (objetos correspondentes em uma imagem para outras instâncias desse objeto em um catálogo) é uma longa busca da divisão de pesquisa de IA do Google. . No ano passado, lançou o Google-Landmarks , um conjunto de dados que na época era considerado o maior do mundo, e realizou duas competições (Landmark Recognition 2018 e Landmark Retrieval 2018), nas quais participaram mais de 500 pesquisadores de aprendizado de máquina.

Hoje, em um passo significativo em direção ao seu objetivo de modelos de visão computacional mais sofisticados, o Google publicou o Google-Landmarks-v2 , um novo e mais importante corpus de reconhecimento contendo duas vezes mais fotos e sete vezes mais marcos. Além disso, foram lançados dois novos desafios ( Landmark Recognition 2019 e Landmark Retrieval 2019 ) na Kaggle, sua comunidade de aprendizado de máquina, e lançaram o código fonte e o modelo para Detect-to-Retrieve, uma estrutura para recuperação regional de imagens.

“Ambos os métodos de reconhecimento de instâncias e recuperação de imagens exigem conjuntos de dados cada vez maiores tanto no número de imagens quanto na variedade de pontos de referência para treinar sistemas melhores e mais robustos”, escreveram os engenheiros de software do Google AI Bingyi Cao e Tobias Weyand. “Esperamos que este conjunto de dados ajude a promover o estado da arte no reconhecimento de instâncias e recuperação de imagens.”

Acima: mapa de calor dos locais de referência no Google-Landmarks-v2.

De acordo com Bingyi e Weyand, o Google-Landmarks-v2 contém mais de 5 milhões de imagens de mais de 200.000 pontos de referência coletados por fotógrafos de todo o mundo. Os fotógrafos em questão rotulada suas próprias imagens - que retratam o Castelo Neuschwanstein, Golden Gate Bridge, Kiyomizu-dera, Burj Khalifa, Grande Esfinge de Gizé, Machu Picchu e outros locais famosos - e apresentou-as para a inclusão. Em seguida, os pesquisadores do Google os complementaram com imagens históricas e menos conhecidas do Wikimedia Commons, o repositório on-line da Wikimedia Foundation de imagens, sons e outras mídias de uso gratuito.

Então, qual é o problema com o framework Detect-to-Retrieve? Cao e Weyand dizem que o modelo publicado - que foi treinado em um subconjunto de 80.000 do conjunto de dados de pontos de referência originais - aproveita caixas delimitadoras de um modelo de detecção de objetos para dar “peso extra” a regiões de imagens contendo itens de interesse, melhorando significativamente a precisão.

Tanto o Landmark Recognition 2019, cujas tarefas os criadores de modelos de IA de detecção de marco, quanto o Landmark Retrieval 2019, que tem concorrentes usando um sistema de IA para encontrar imagens mostrando um ponto de referência de destino, estão abertos à entrada. Ambos incluem prêmios em dinheiro de US $ 50.000, e Bingyi e Weyand dizem que as equipes vencedoras serão convidadas a apresentar seus métodos no Workshop de Reconhecimento do Segundo Marco na Conferência de 2019 sobre Visão Computacional e Reconhecimento de Padrões em Long Beach, Califórnia, no final deste ano.

Fonte: VentureBeat

Siberneticon

05/05/2019

Google expande banco de dados para treinamento de inteligência artificial

Nenhum comentário:

Postar um comentário