NerdPraJá - Soluções de TI
← Blog·Segurança em IA9 min de leitura

Segurança em RAG: Protegendo Dados Privados na Base de Conhecimento com IA

Como construir uma arquitetura RAG corporativa com controle de acesso, dados privados, conformidade LGPD e segurança Nota A+ — sem expor informações sensíveis a terceiros.

Por NerdPraJá·

Construir uma base de conhecimento com RAG é a parte técnica mais simples do projeto. A parte complexa — e onde a maioria dos projetos falha — é garantir que dados sensíveis da empresa fiquem sob controle total do cliente, sem vazar para terceiros, com acesso auditável e conformidade com a LGPD.

Os três vetores de risco numa implementação RAG

1. Armazenamento do banco vetorial na nuvem pública

Serviços SaaS de RAG convenientes (como alguns oferecidos diretamente pelas provedoras de LLM) armazenam os vetores e, em alguns casos, os documentos originais nos servidores delas. Isso significa que contratos, manuais e dados financeiros da empresa ficam fora do seu controle — e podem ser usados para treinar modelos futuros conforme os termos de serviço.

2. Ausência de controle de acesso na consulta

Uma base RAG sem controle de acesso granular permite que qualquer usuário recupere qualquer documento — incluindo informações confidenciais de RH, dados de clientes ou contratos sigilosos. O controle de acesso precisa estar implementado tanto no nível de indexação quanto no nível de consulta.

3. Logs de consulta não auditados

Sem rastreabilidade das consultas, é impossível saber quem perguntou o quê, qual documento foi recuperado e qual resposta foi gerada. Em caso de vazamento ou uso indevido, a investigação não tem dados para trabalhar.

Arquitetura RAG privada e segura: os componentes essenciais

  • Banco vetorial privado (pgvector, Weaviate ou Pinecone em ambiente dedicado) — sem armazenamento em SaaS compartilhado
  • Controle de acesso baseado em papéis (RBAC) — cada usuário acessa apenas os documentos autorizados
  • Criptografia em repouso e em trânsito para todos os vetores e documentos
  • Logs imutáveis de cada consulta, documento recuperado e resposta gerada
  • Política de retenção de dados definida — documentos desatualizados são removidos do índice
  • Auditoria periódica de acesso para conformidade LGPD

LGPD e RAG: dados pessoais indexados (cadastros de clientes, dados de colaboradores) são tratados como dados pessoais pela LGPD mesmo em formato vetorial. É necessário mapear, documentar a base legal e garantir o direito de exclusão dos titulares.

CSP, HSTS e a segurança da camada web

A interface web que os colaboradores usam para consultar a base RAG também precisa de segurança enterprise. Isso inclui Content Security Policy com nonce dinâmico (que a NerdPraJá implementa com Nota A+ no SecurityHeaders.com), HTTPS forçado via HSTS, autenticação com MFA e sessões com timeout automático.

Conclusão

RAG seguro não é apenas indexar documentos numa base vetorial. É projetar cada camada da arquitetura com segurança, privacidade e auditabilidade desde o início — não como uma camada adicionada depois. Isso é o que diferencia uma implementação enterprise de um projeto que vira um risco para a empresa.

Precisa de ajuda com TI na sua empresa?

A NerdPraJá possui base em Castro/PR, atendendo presencialmente na região e remotamente em todo o Brasil.