O Google DeepMind, braço de pesquisa de IA da empresa, revelou pela primeira vez o Projeto Astra no I/O deste ano. Agora, mais de seis meses depois, a gigante tecnológica anunciou novas capacidades e melhorias no agente de inteligência synthetic (IA). Baseando-se nos modelos de IA do Gemini 2.0, ele agora pode conversar em vários idiomas, acessar várias plataformas do Google e melhorar a memória. A ferramenta ainda está em fase de testes, mas a gigante da tecnologia baseada em Mountain View afirmou que está trabalhando para trazer o Projeto Astra para o aplicativo Gemini, o assistente Gemini AI e até mesmo fatores de formato como óculos.
Google adiciona novos recursos no Projeto Astra
O Projeto Astra é um agente de IA de uso geral semelhante em funcionalidade ao modo de visão do OpenAI ou aos óculos inteligentes Meta Ray-Ban. Ele pode ser integrado ao {hardware} da câmera para ver o entorno do usuário e processar os dados visuais para responder perguntas sobre eles. Além disso, o agente de IA vem com memória limitada que permite lembrar informações visuais mesmo quando elas não estão sendo mostradas ativamente pela câmera.
Google DeepMind destacado em um postagem no blog que desde o showcase em maio, a equipe tem trabalhado para melhorar o agente de IA. Agora, com o Gemini 2.0, o Projeto Astra recebeu diversas atualizações. Agora ele pode conversar em vários idiomas e em idiomas mistos. A empresa disse que agora entende melhor os sotaques e palavras incomuns.
A empresa também introduziu o uso de ferramentas no Projeto Astra. Agora ele pode recorrer à Pesquisa Google, Lens, Maps e Gemini para responder a perguntas complexas. Por exemplo, os usuários podem mostrar um ponto de referência e pedir ao agente de IA que mostre as direções para sua casa, e ele pode reconhecer o objeto e direcionar verbalmente o usuário para casa.
A função de memória do agente AI também foi atualizada. Em maio, o Projeto Astra só conseguia reter informações visuais dos últimos 45 segundos; agora foi estendido para 10 minutos de memória na sessão. Além disso, ele também pode lembrar mais conversas anteriores para oferecer respostas mais personalizadas. Por fim, o Google afirma que o agente agora pode compreender a linguagem na latência da conversa humana, tornando as interações com a ferramenta mais humanas.