Vulnerabilidades em IA colocam usuários em risco de exfiltração de dados
A Tenable Research identificou sete falhas críticas em sistemas de inteligência artificial, que afetam diretamente a segurança e a privacidade dos usuários do ChatGPT. Essas vulnerabilidades, encontradas no modelo ChatGPT-4 e observadas também no ChatGPT-5, possibilitam o roubo de informações, manipulação de respostas e comprometimento persistente das memórias do assistente virtual. Denominadas HackedGPT, essas falhas representam uma nova categoria de risco emergente para plataformas de IA generativa.
Riscos de exfiltração de dados em sistemas de IA
As falhas afetam funcionalidades essenciais do ChatGPT, como a navegação na web e a função de memória, que processam dados em tempo real e armazenam informações contextuais. Quando exploradas, essas brechas permitem que agentes maliciosos acessem dados confidenciais, incluindo históricos de conversas e informações de serviços externos, como Google Drive e Gmail.
A relevância dessa descoberta é acentuada pela ampla adoção da ferramenta, com centenas de milhões de usuários utilizando o ChatGPT diariamente para trabalho, pesquisa e comunicação. A América Latina, em particular, destaca-se como uma das regiões com crescimento acelerado no uso de IA generativa, tornando essas vulnerabilidades ainda mais preocupantes para usuários e empresas locais.
Injeção indireta de prompt: um novo vetor de ataque
O estudo revela uma técnica de ataque chamada injeção indireta de prompt, onde comandos maliciosos são inseridos em sites legítimos, comentários de blogs ou postagens em redes sociais. Quando o ChatGPT acessa esses conteúdos, ele pode interpretar e executar instruções ocultas, resultando em ações não autorizadas e exposição de informações privadas.
Esses ataques podem ocorrer de duas maneiras: um ataque 0 clique, onde a simples formulação de uma pergunta ativa o código malicioso, ou um ataque 1 clique, que requer apenas um clique em um link aparentemente seguro. Ambos os métodos exploram a confiança do sistema em fontes externas e a falta de isolamento entre os ambientes de memória e navegação.
Ameaças persistentes e comprometimento prolongado
A Tenable também identificou a Injeção de Memória Persistente, uma técnica mais grave que grava comandos ocultos na memória de longo prazo do ChatGPT, mantendo-os ativos mesmo após o encerramento da sessão. Isso permite que atacantes mantenham controle sobre partes do sistema, influenciando interações futuras e potencialmente vazando dados privados indefinidamente.
Os pesquisadores demonstraram que essa falha cria uma vulnerabilidade estrutural no gerenciamento de contexto da IA, permitindo que ela lembre e reproduza instruções maliciosas, mesmo após reinicializações.
Sete vulnerabilidades identificadas
As vulnerabilidades listadas pela Tenable Research incluem:
- Injeção indireta de prompt por sites confiáveis, onde comandos ocultos são executados automaticamente.
- Injeção de prompt 0 clique, que compromete o modelo apenas pela consulta a uma página maliciosa.
- Injeção de prompt 1 clique, que executa comandos escondidos em links seguros.
- Omissão do mecanismo de segurança, usando endereços confiáveis para mascarar destinos maliciosos.
- Injeção de conversação, que insere instruções ocultas em resultados de busca.
- Ocultação de conteúdo malicioso, explorando falhas de formatação para esconder código perigoso.
- Injeção de memória persistente, que armazena comandos duradouros para sessões futuras.
Embora algumas dessas falhas já tenham sido corrigidas pela OpenAI, outras ainda permanecem sem solução. Isso demonstra que, mesmo com mecanismos de filtragem, modelos de linguagem de grande porte podem ser induzidos a quebrar suas próprias restrições.
Implicações e riscos para empresas
O impacto dessas vulnerabilidades vai além do uso individual, afetando ambientes corporativos. O acesso não autorizado a dados pode resultar em espionagem industrial, roubo de propriedade intelectual e exposição de informações sensíveis de clientes e fornecedores. Além disso, as brechas podem facilitar ataques de manipulação de conteúdo e desinformação.
O engenheiro sênior da Tenable, Moshe Bernstein, destacou que o HackedGPT revela uma fraqueza fundamental na avaliação de informações confiáveis pelos grandes modelos de linguagem. Pequenas falhas podem se combinar em cadeias de ataque que driblam salvaguardas e executam comandos sem detecção.
Recomendações para segurança em IA
A Tenable recomenda que empresas e desenvolvedores tratem ferramentas de IA como superfícies de ataque ativas. Algumas medidas sugeridas incluem:
- Auditar periodicamente integrações de IA para detectar manipulações e vazamentos de dados.
- Reforçar defesas contra injeções de prompt, testando validações de URL e isolamento de funções críticas.
- Implementar controles de governança e classificação de dados para limitar o acesso a informações sensíveis.
- Investigar solicitações incomuns que possam indicar manipulação de contexto ou comportamento anômalo.
Bernstein enfatiza a importância de não apenas expor falhas, mas também de mudar a abordagem de proteção da inteligência artificial. Ferramentas de IA necessitam de testes contínuos e governança robusta para garantir que operem a favor dos usuários.
A descoberta das vulnerabilidades no ChatGPT ressalta a necessidade de encarar sistemas de IA generativa como potenciais vetores de ataque. À medida que plataformas como o ChatGPT armazenam memórias e se conectam a sistemas corporativos, a aplicação de práticas de segurança avançadas se torna crucial.
A Tenable defende que a indústria de IA adote padrões de segurança transparentes e colabore na criação de frameworks de defesa específicos para modelos de linguagem, assegurando que a inovação avance sem comprometer a privacidade dos usuários.
Fonte por: Its Show
