A OpenAI, líder em inteligência artificial, deu mais um passo na jornada em direção a uma interação mais natural entre humanos e computadores com o lançamento do GPT-4o (“o” de “omni”). Este novo modelo representa um marco para a empresa na capacidade de entender e gerar conteúdo em várias modalidades, incluindo texto, áudio e imagem.
O GPT-4o é projetado para aceitar entradas em qualquer combinação de texto, áudio e imagem, e gerar saídas correspondentes em qualquer uma dessas modalidades. Um avanço impressionante é sua capacidade de responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, aproximando-se do tempo de resposta humano em uma conversa.
Anteriormente, o processo de interação por voz com modelos de IA como o GPT-3.5 e o GPT-4 envolvia um pipeline de três modelos separados, resultando em latências significativas. No entanto, com o GPT-4o, a OpenAI desenvolveu um único modelo de ponta a ponta que integra texto, visão e áudio, eliminando assim a necessidade de múltiplos modelos e reduzindo drasticamente o tempo de resposta.
Desempenho do GPT-4o
O desempenho do GPT-4o em benchmarks tradicionais é notável. Ele iguala o desempenho do GPT-4 Turbo em texto e código em inglês, enquanto demonstra melhorias significativas em texto em idiomas diferentes do inglês. Além disso, o modelo se destaca na compreensão de visão e áudio em comparação com os modelos anteriores.
Os avanços do GPT-4o não se limitam apenas ao texto e áudio. Ele estabelece novos padrões em recursos multilíngues, reconhecimento de fala e tradução de áudio, superando os modelos anteriores em diversos benchmarks.
Em termos de segurança, a OpenAI assegura que o GPT-4o foi projetado com segurança integrada desde o início, incorporando técnicas como filtragem de dados de treinamento e pós-treinamento refinado para mitigar riscos. Avaliações extensivas foram realizadas para garantir que o modelo atenda aos mais altos padrões de segurança.
A disponibilidade do GPT-4o marca um avanço na acessibilidade da tecnologia de IA de última geração. Está sendo implementado inicialmente no ChatGPT, com recursos de texto e imagem já disponíveis para uso gratuito e em contas Plus. O acesso à API também está aberto aos desenvolvedores, com planos para suporte aos recursos de áudio e vídeo nas próximas semanas.
Aproveite e junte-se ao nosso canal no WhatsApp para receber conteúdos exclusivos em primeira mão. Clique aqui para participar. Startupi | Jornalismo para quem lidera inovação!