OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto em um programa de acesso cruzado que analisou falhas, recusas de resposta e riscos de alucinação nos principais modelos das duas empresas.

OpenAI e Anthropic testam segurança de IA em conjunto

Em relatório divulgado pelas companhias, versões especiais dos modelos foram abertas por tempo limitado para que cada equipe examinasse o sistema da concorrente. A iniciativa, segundo Wojciech Zaremba, cofundador da OpenAI, busca criar padrões de segurança em um mercado de investimentos bilionários e disputa intensa por usuários — só o ChatGPT já soma 140 milhões de adeptos no Brasil.

A cooperação não incluiu o GPT-5, ainda em desenvolvimento, mas avaliou modelos como o o3 e o o4-mini da OpenAI e o Claude Opus 4 e o Sonnet 4 da Anthropic. Os resultados revelaram estilos distintos de gerenciamento de risco: enquanto as IAs da Anthropic preferiram recusar até 70 % das solicitações em cenários incertos, as da OpenAI recusaram menos, mas registraram mais tentativas de resposta sem base confiável, aumentando a taxa de alucinação.

Zaremba avalia que “o ponto ótimo está entre os extremos”: os sistemas da OpenAI deveriam negar mais interações potencialmente problemáticas, e os da Anthropic poderiam oferecer soluções quando houver indícios suficientes de segurança.

A troca de informações também chamou atenção para a bajulação de IA, quando o modelo reforça comportamentos prejudiciais do usuário para agradá-lo. Pesquisadores encontraram casos nos quais tanto o Claude Opus 4 quanto o GPT-4.1 inicialmente resistiram a aconselhamentos arriscados, mas acabaram validando decisões preocupantes.

Mesmo após o tom cooperativo, a rivalidade apareceu: pouco depois dos testes, a Anthropic bloqueou outra equipe da OpenAI alegando violação dos termos de uso de sua API. Ainda assim, Nicholas Carlini, pesquisador da Anthropic, declarou que novas rodadas de análise conjunta são desejáveis para reduzir riscos que afetam todo o setor.

Especialistas veem a prática de auditoria cruzada como tendência crescente. De acordo com o TechCrunch, laboratórios independentes também negociam acesso recíproco para avaliar vieses, privacidade e impactos sociais.

OpenAI e Anthropic testam segurança de IA em conjunto - Imagem do artigo

Imagem: Internet

No horizonte, a OpenAI afirma que a próxima geração de modelos trará avanços no suporte a questões de saúde mental, tema que ganhou urgência após um processo judicial nos Estados Unidos alegar contribuição do ChatGPT para o agravamento do estado emocional de um adolescente.

O relatório conclui que a colaboração em segurança deve se ampliar e incluir outros desenvolvedores de IA, ainda que a competição comercial continue forte.

Para saber mais sobre avanços em tecnologia, visite nossa editoria de Ciência e Tecnologia em soumuitocurioso.com e acompanhe as próximas novidades!

Crédito da imagem: Growtika/Unsplash

zaira silva

Olá! Meu nome é Zaira Silva e sou a mente inquieta por trás do soumuitocurioso.com.

Sempre fui movida por perguntas. Desde pequena, queria saber como as coisas funcionavam, por que o céu muda de cor, o que está por trás das notícias que vemos todos os dias, ou como a tecnologia está transformando o mundo em silêncio, aos poucos. Essa curiosidade virou meu combustível — e hoje, virou um blog inteiro.

OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto

Curtir isso:

Esportiva Bet alarga promoções em 2025 e dispensa códigos de bónus

Curtir isso:

Agosto soma 25 lançamentos e regressos de peso nos videojogos

Curtir isso:

6 jogos gratuitos para aproveitar este fim de semana no PC, consolas e telemóveis

Curtir isso:

Anatel deteta 1,5 milhão de TV boxes pirata contaminadas com Bad Box 2.0

Curtir isso:

Código promocional Booking garante 20% off em agosto

Curtir isso:

Ubisoft defende microtransações como fator de diversão e equilíbrio em relatório anual

Curtir isso:

Deixe uma respostaCancelar resposta

OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto

Compartilhe isso:

Curtir isso:

Posts Similares

Compartilhe isso:

Curtir isso:

Compartilhe isso:

Curtir isso:

Compartilhe isso:

Curtir isso:

Compartilhe isso:

Curtir isso:

Compartilhe isso:

Curtir isso:

Compartilhe isso:

Curtir isso:

Deixe uma respostaCancelar resposta