Adeus DALL-E: ChatGPT agora usa Sora para criar imagens com textos, transparências e histórias em quadrinhos

A OpenAI anunciou hoje a integração do Sora – seu gerador de imagens e vídeos baseado em IA – diretamente no ChatGPT. A novidade, chamada “Images in ChatGPT”, substitui o DALL-E como ferramenta padrão de geração de imagens na plataforma.

Melhorias significativas. A versão de geração de imagens do Sora vem com aprimoramentos importantes em relação às ferramentas anteriores. Gabriel Goh, líder de pesquisa da OpenAI, destacou como principais avanços a capacidade aprimorada de “binding” (relação correta entre atributos e objetos) e a renderização de texto.

“Este modelo é um salto em relação aos anteriores”, afirmou Goh ao site The Verge. “Enquanto a maioria dos modelos de geração de imagens tem dificuldades com a vinculação correta de atributos após 5 a 8 objetos, o Sora consegue manter relações precisas entre 15 e 20 objetos sem confusão.”

🖼️ Foco em utilidade prática. Durante uma demonstração, a equipe apresentou exemplos que mostram as capacidades do sistema, incluindo diagramas científicos como o experimento do prisma de Newton com componentes corretamente rotulados, quadrinhos com personagens consistentes e balões de texto, e pôsteres informativos com texto preciso.

↳ A geração de texto coerente em imagens foi um desafio significativo que exigiu meses de aperfeiçoamento. “Foi apenas um processo de iteração que levou muitos, muitos meses para acertar”, explicou Goh, observando que o sistema ainda pode falhar com textos muito pequenos.

Mudança técnica. O sistema utiliza uma abordagem autorregressiva — gerando imagens sequencialmente da esquerda para a direita e de cima para baixo, semelhante à forma como o texto é escrito — em vez da técnica de modelo de difusão usada pela maioria dos geradores de imagem (como o DALL-E), que criam a imagem inteira de uma vez.

Goh especula que essa diferença técnica pode ser o que confere ao Sora melhores capacidades de renderização de texto e vinculação de atributos.

Disponibilidade. A funcionalidade começa a ser implementada hoje para usuários ChatGPT Plus, Pro, Team e da versão gratuita, com acesso chegando em breve para usuários Enterprise e Edu. Mesmo sendo apenas um recurso de geração de imagens nesta fase, vale lembrar que o Sora foi inicialmente anunciado como um gerador de vídeos com IA.

“Se eu for desenhar uma imagem, faço isso com a limitação da minha própria habilidade… mas também com todo o conhecimento do mundo que acumulei”, explicou Jackie Shannon, líder de produto multimodal do ChatGPT. “O modelo traz conhecimento de mundo para a equação, então quando você pede uma imagem do experimento do prisma de Newton, não precisa explicar o que é isso para obter uma imagem de volta.”

Um detalhe interessante é que o novo sistema leva mais tempo para gerar imagens do que antes, mas a OpenAI sugere que este é um ajuste que vale a pena pela qualidade superior dos resultados.

Para os fãs do DALL-E, a ferramenta anterior continuará disponível através de um GPT dedicado específico. Os desenvolvedores também poderão gerar imagens com o GPT-4o via API, com acesso sendo implementado nas próximas semanas.

Share
Publicador por
Carlos Merigo

Recent Posts

  • Negócios

Uber e iFood anunciam parceria para integrar serviços nos apps um do outro

Uber e iFood anunciaram nesta terça-feira (14) uma parceria estratégica que permitirá a integração de serviços entre os dois aplicativos.…

3 horas Atrás
  • Cultura
  • Negócios

Netflix desafia concorrentes no seu Upfront 2025: “Um dólar gasto aqui vale mais que em qualquer outro lugar”

A Netflix realizou seu terceiro Upfront anual nesta quarta-feira no Perelman Performing Arts Center, em Nova York, apresentando um crescimento…

4 horas Atrás
  • Criatividade

Airbnb muda estratégia e posiciona marca contra turismo padronizado em nova campanha global

O Airbnb apresentou uma grande reformulação de sua plataforma durante o evento Summer Release 2025, realizado em Los Angeles na…

6 horas Atrás
  • Cultura

Trailer do novo Superman revela dilema geopolítico do Homem de Aço

A DC Studios acaba de divulgar um novo trailer de Superman, o filme dirigido por James Gunn que marca o…

8 horas Atrás
  • Inventário

Os melhores fones de ouvido em 2025 para criativos em busca de foco

Profissionais de criatividade em geral sabem que um bom fone de ouvido pode ser o aliado perfeito para manter o…

10 horas Atrás
  • Brasil
  • Criatividade

“Mais Força, Menos Amargor”: Spaten lança filme com Jeffrey Dean Morgan e Rodrigo Lombardi

A Spaten acaba de lançar sua nova campanha "Mais Força, Menos Amargor", estrelado pelo ator americano Jeffrey Dean Morgan e…

1 dia Atrás