Segurança em RAG: Protegendo Dados Privados na Base de Conhecimento com IA
Como construir uma arquitetura RAG corporativa com controle de acesso, dados privados, conformidade LGPD e segurança Nota A+ — sem expor informações sensíveis a terceiros.
Construir uma base de conhecimento com RAG é a parte técnica mais simples do projeto. A parte complexa — e onde a maioria dos projetos falha — é garantir que dados sensíveis da empresa fiquem sob controle total do cliente, sem vazar para terceiros, com acesso auditável e conformidade com a LGPD.
Os três vetores de risco numa implementação RAG
1. Armazenamento do banco vetorial na nuvem pública
Serviços SaaS de RAG convenientes (como alguns oferecidos diretamente pelas provedoras de LLM) armazenam os vetores e, em alguns casos, os documentos originais nos servidores delas. Isso significa que contratos, manuais e dados financeiros da empresa ficam fora do seu controle — e podem ser usados para treinar modelos futuros conforme os termos de serviço.
2. Ausência de controle de acesso na consulta
Uma base RAG sem controle de acesso granular permite que qualquer usuário recupere qualquer documento — incluindo informações confidenciais de RH, dados de clientes ou contratos sigilosos. O controle de acesso precisa estar implementado tanto no nível de indexação quanto no nível de consulta.
3. Logs de consulta não auditados
Sem rastreabilidade das consultas, é impossível saber quem perguntou o quê, qual documento foi recuperado e qual resposta foi gerada. Em caso de vazamento ou uso indevido, a investigação não tem dados para trabalhar.
Arquitetura RAG privada e segura: os componentes essenciais
- Banco vetorial privado (pgvector, Weaviate ou Pinecone em ambiente dedicado) — sem armazenamento em SaaS compartilhado
- Controle de acesso baseado em papéis (RBAC) — cada usuário acessa apenas os documentos autorizados
- Criptografia em repouso e em trânsito para todos os vetores e documentos
- Logs imutáveis de cada consulta, documento recuperado e resposta gerada
- Política de retenção de dados definida — documentos desatualizados são removidos do índice
- Auditoria periódica de acesso para conformidade LGPD
LGPD e RAG: dados pessoais indexados (cadastros de clientes, dados de colaboradores) são tratados como dados pessoais pela LGPD mesmo em formato vetorial. É necessário mapear, documentar a base legal e garantir o direito de exclusão dos titulares.
CSP, HSTS e a segurança da camada web
A interface web que os colaboradores usam para consultar a base RAG também precisa de segurança enterprise. Isso inclui Content Security Policy com nonce dinâmico (que a NerdPraJá implementa com Nota A+ no SecurityHeaders.com), HTTPS forçado via HSTS, autenticação com MFA e sessões com timeout automático.
Conclusão
RAG seguro não é apenas indexar documentos numa base vetorial. É projetar cada camada da arquitetura com segurança, privacidade e auditabilidade desde o início — não como uma camada adicionada depois. Isso é o que diferencia uma implementação enterprise de um projeto que vira um risco para a empresa.