27/03/2025

A OpenAI afirma ter feito um grande avanço na criação de imagens para o ChatGPT

A startup de IA diz que passou um ano usando trabalhadores humanos para treinar seu modelo GPT-4o para gerar imagens mais realistas e texto compreensível

A OpenAI afirma ter mais de 400 milhões de Usuários Semanais do ChatGPT. Foto: Gabby Jones/Bloomberg News

A OpenAI apresentou uma versão atualizada de seu sistema de IA GPT-4o que pode gerar imagens mais realistas. Esse é o resultado de um esforço de um ano com treinadores humanos.

O GPT-4o substitui o DALL-E 3 como o modelo padrão de geração de imagens por trás do chatbot ChatGPT da OpenAI. E a Capacidade de usá-lo agora está Disponível para o ChatGPT

Gratuito,
E mais,
Team
e Pro, informou a Empresa.

Anunciado como uma versão mais barata de seu modelo de IA Mais Avançado na época. O GPT-4o foi lançado no ano passado como um Modelo Multimodal capaz de Criar e Compreender:

Texto,
Vídeo,
Áudio
e Imagens.

O Modelo Refinado do GPT-4o de hoje Facilita a Criação para Consumidores e Empresas:

Imagens mais Realistas
e Parágrafos de Texto Compreensível
e até mesmo Logotipos de Empresas e Apresentações de Slides, disse a OpenAI.

Por trás do Aprimoramento do GPT-4o está um grupo de “instrutores humanos” que rotularam os dados de treinamento para o modelo – apontando onde:

Erros de Digitação,
Mãos e Rostos Errôneos

foram cometidos em imagens geradas por IA, disse Gabriel Goh, o Principal Pesquisador do projeto.

Por meio dessa técnica, o modelo de IA foi treinado para seguir as instruções humanas mais de perto, gerando assim imagens úteis e renderizadas com mais precisão, disse ele.

Today’s refined GPT-4o model makes it easier to create more life-like images and paragraphs of comprehensible text, OpenAI said.

O modelo GPT-4o refinado de hoje facilita a criação de imagens mais realistas e parágrafos de texto compreensíveis, disse a OpenAI. Foto: OpenAI

O modelo GPT-4o refinado de hoje

O processo, geralmente chamado de “aprendizado por reforço a partir de feedback humano” ou RLHF, é uma técnica comum usada por Empresas de IA para aprimorar seus modelos depois que eles são inicialmente treinados. Dado o grande alcance dos sistemas de IA da OpenAI o impacto que esses instrutores humanos podem ter é significativo. Ela diz que tem mais de 400 milhões de usuários semanais do ChatGPT.-

A OpenAI disse que trabalhou com um pouco mais de 100 funcionários humanos para o processo de aprendizagem por reforço.

“O modelo básico já é inteligente em sua própria maneira”, disse Goh, ”e então o processo [de aprendizagem por reforço a partir de feedback humano] traz à tona a inteligência e a refina.”

A geração de imagens agora é muito mais útil

Com as melhorias na Pesquisa feitas no GPT-4o, a geração de imagens do ChatGPT agora é muito mais útil para consumidores e Empresas, disse a OpenAI. Enquanto as iterações anteriores de seus sistemas de IA não eram capazes de gerar parágrafos de texto legível com imagens, por exemplo, o GPT-4o é capaz de fazer isso, disse.

O modelo também é capaz de criar fundos transparentes, possibilitando que as Empresas criem logotipos ou outras iconografias, disse Jackie Shannon, líder de produto da OpenAI para o ChatGPT multimodal. Outros usos sugeridos pela Empresa incluem pedir ao ChatGPT para gerar imagens com base em um guia de estilo de marca carregado pelo usuário.

O diretor de dados e análise da GoDaddy, Travis Muhlestein, disse que o uso do GPT-4o pela Empresa de tecnologia e hospedagem na Web está “nos ajudando a adotar a criação de conteúdo orientada por IA”. Isso inclui coisas como o uso de IA para criar imagens de estoque e logotipos, disse a Empresa.

Ainda assim, a geração de imagens no GPT-4o não é perfeita, disse Goh. Em um exemplo mostrado pela Empresa, um usuário carregou uma foto de sua sala de estar com duas janelas para o ChatGPT. O sistema de IA só conseguiu reproduzir uma janela ao recriar a imagem da sala de estar com móveis novos.

A Controvérsia

O uso de Geradores de Imagens com IA continua sendo Controverso. Alguns Artistas afirmam que os Geradores de Imagens com IA plagiam seu Trabalho e ameaçam seus Meios de Subsistência.

A OpenAI disse que o GPT-4o foi treinado em:

“Dados Disponíveis Publicamente”
bem como Dados Proprietários

de suas Parcerias com Empresas como a Shutterstock.

“Respeitamos os Direitos dos Artistas no que se refere à forma como produzimos os Resultados e temos Políticas que nos impedem de gerar Imagens que Imitem Diretamente o Trabalho de qualquer artista vivo”, disse Brad Lightcap, Diretor de Operações da OpenAI.

A News Corp, Proprietária do Wall Street Journal, tem uma parceria de licenciamento de conteúdo com a OpenAI.

Fonte: Wall Street Journal

Leia outras notícias em nosso blog

Precisa de um Servidor Web? Dê uma olhada em nossos serviços