O Google apresentou na segunda-feira uma nova ferramenta experimental de inteligência synthetic (IA) que pode fundir imagens para gerar um resultado exclusivo. Apelidado de Whisk, é uma ferramenta divertida que não possui nenhuma aplicação maior fora de sua função designada. A gigante da tecnologia baseada em Mountain View lançou recentemente várias ferramentas divertidas de IA, como o GenChess, que usa o modelo Imagen 3 AI para gerar peças exclusivas do tabuleiro de xadrez. Com o Whisk, a empresa mostra como a IA pode usar apenas imagens como um immediate para gerar arte única.
O Whisk do Google pode ‘remixar’ imagens de entrada
Em um postagem no bloga gigante da tecnologia apresentou a nova ferramenta de IA. Atualmente, o Whisk está disponível apenas nos EUA e pode ser acessado através do Google Labs, a plataforma da empresa para lançar ferramentas experimentais criadas usando modelos nativos de IA. Como todas as outras ferramentas, o Whisk também é experimental e o Google destaca que às vezes ele pode não funcionar da maneira que os usuários gostariam.
Os geradores de imagens de IA são bastante comuns, no entanto, a maioria deles aceita apenas texto ou uma mistura de texto e imagens como entrada. Resumindo, os modelos de geração de imagens requerem instruções de linguagem pure de alguma forma para entender o que criar. No entanto, o Whisk é diferente desses modelos, pois os usuários podem adicionar apenas imagens para solicitar que o modelo crie resultados.
Whisk pede aos usuários que adicionem três imagens – uma para cada assunto, cena e estilo. Uma vez adicionada, a ferramenta de IA processa automaticamente as informações visuais para gerar uma imagem única que é a combinação de todas as três imagens de entrada. Os usuários também podem adicionar apenas duas imagens, uma para o assunto e outra para a cena, para gerar resultados.
O Google explicou que nos bastidores, o modelo Gemini processa as imagens e escreve um immediate detalhado em linguagem pure, que é então enviado ao modelo Imagen 3. O immediate visa capturar a essência das imagens e não tenta gerar uma mistura objetiva das imagens de entrada.
Como o Whisk é um modelo experimental, as imagens geradas podem ser diferentes das expectativas do usuário. Para dar aos usuários mais controle sobre a saída, o Whisk permite que os usuários refinem e editem as imagens após a geração. Os usuários podem facilmente verificar o immediate subjacente escrito pelo Gemini e alterá-lo ou adicionar mais informações para obter o resultado desejado.
“Nós o construímos para uma exploração visible rápida, não para edições com pixels perfeitos. Trata-se de explorar ideias de maneiras novas e criativas, permitindo que você trabalhe com dezenas de opções e baixe aquelas que você ama”, disse o Google.
Para obter as últimas notícias e análises de tecnologia, siga Devices 360 em X, Facebook, WhatsApp, Tópicos e Google Notícias. Para os vídeos mais recentes sobre devices e tecnologia, inscreva-se em nosso Canal do YouTube. Se você quiser saber tudo sobre os principais influenciadores, siga nosso website interno Quem é esse 360 sobre Instagram e YouTube.
O CEO da Microsoft, Satya Nadella, pressiona por jogos do Xbox em todos os dispositivos