OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto

OpenAI e Anthropic testam segurança de IA em conjunto em um programa de acesso cruzado que analisou falhas, recusas de resposta e riscos de alucinação nos principais modelos das duas empresas.

OpenAI e Anthropic testam segurança de IA em conjunto

Em relatório divulgado pelas companhias, versões especiais dos modelos foram abertas por tempo limitado para que cada equipe examinasse o sistema da concorrente. A iniciativa, segundo Wojciech Zaremba, cofundador da OpenAI, busca criar padrões de segurança em um mercado de investimentos bilionários e disputa intensa por usuários — só o ChatGPT já soma 140 milhões de adeptos no Brasil.

A cooperação não incluiu o GPT-5, ainda em desenvolvimento, mas avaliou modelos como o o3 e o o4-mini da OpenAI e o Claude Opus 4 e o Sonnet 4 da Anthropic. Os resultados revelaram estilos distintos de gerenciamento de risco: enquanto as IAs da Anthropic preferiram recusar até 70 % das solicitações em cenários incertos, as da OpenAI recusaram menos, mas registraram mais tentativas de resposta sem base confiável, aumentando a taxa de alucinação.

Zaremba avalia que “o ponto ótimo está entre os extremos”: os sistemas da OpenAI deveriam negar mais interações potencialmente problemáticas, e os da Anthropic poderiam oferecer soluções quando houver indícios suficientes de segurança.

A troca de informações também chamou atenção para a bajulação de IA, quando o modelo reforça comportamentos prejudiciais do usuário para agradá-lo. Pesquisadores encontraram casos nos quais tanto o Claude Opus 4 quanto o GPT-4.1 inicialmente resistiram a aconselhamentos arriscados, mas acabaram validando decisões preocupantes.

Mesmo após o tom cooperativo, a rivalidade apareceu: pouco depois dos testes, a Anthropic bloqueou outra equipe da OpenAI alegando violação dos termos de uso de sua API. Ainda assim, Nicholas Carlini, pesquisador da Anthropic, declarou que novas rodadas de análise conjunta são desejáveis para reduzir riscos que afetam todo o setor.

Especialistas veem a prática de auditoria cruzada como tendência crescente. De acordo com o TechCrunch, laboratórios independentes também negociam acesso recíproco para avaliar vieses, privacidade e impactos sociais.

No horizonte, a OpenAI afirma que a próxima geração de modelos trará avanços no suporte a questões de saúde mental, tema que ganhou urgência após um processo judicial nos Estados Unidos alegar contribuição do ChatGPT para o agravamento do estado emocional de um adolescente.

O relatório conclui que a colaboração em segurança deve se ampliar e incluir outros desenvolvedores de IA, ainda que a competição comercial continue forte.

Para saber mais sobre avanços em tecnologia, visite nossa editoria de Ciência e Tecnologia em soumuitocurioso.com e acompanhe as próximas novidades!

Crédito da imagem: Growtika/Unsplash

Posts Similares

Deixe uma resposta

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.