Dados sensíveis em pesquisa — Glossário Aria Research

Definição estendida

Dados sensíveis são categorias específicas de dados pessoais que recebem proteções regulatórias adicionais por seu potencial de causar discriminação, dano reputacional ou prejuízo se expostos: dados de saúde, dados genéticos, biometria, orientação sexual, identidade de gênero, religião, opinião política, filiação sindical, origem racial ou étnica, situação financeira, geolocalização precisa, dados de menores. LGPD (Lei Geral de Proteção de Dados, Brasil, 2018) classifica explicitamente “dado pessoal sensível” e exige consentimento específico ou hipótese legal específica para tratamento. GDPR (General Data Protection Regulation, UE, 2018) tem categoria similar de “special category data” sob Art. 9. HIPAA (EUA, 1996) regula especificamente Protected Health Information (PHI) com 18 identificadores que devem ser removidos para dataset ser considerado de-identified. Sweeney (2002, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems) propôs k-anonimato, framework formal — cada registro indistinguível de pelo menos $k-1$ outros. Ohm (2010, UCLA Law Review, “Broken Promises of Privacy”) documentou casos de re-identificação em datasets supostamente anonimizados (Netflix Prize, AOL search logs, Massachusetts hospital discharge data) — anonimização tradicional não é solução final: combinação de quasi-identificadores e dados auxiliares permite re-identificação em muitos cenários. Frameworks modernos: differential privacy (Dwork, 2006), k-anonimato aprimorado, l-diversidade, t-closeness.

Quando se aplica

Cuidado com dados sensíveis aplica-se em pesquisa que coleta, armazena, processa ou compartilha dados pessoais — efetivamente toda pesquisa empírica com humanos. Aplica-se em ensaios clínicos com dados de saúde; pesquisa qualitativa com identificação de minorias; pesquisa em redes sociais (texto pode revelar orientação política, religião); pesquisa genômica com bancos de DNA; pesquisa com geolocalização (móvel, urbana). Aplica-se em compartilhamento de dados de pesquisa via FAIR principles: dados sensíveis exigem acesso restrito, não open data integral. Aplica-se em colaboração internacional: pesquisa coletada no Brasil com análise nos EUA precisa de conformidade LGPD + HIPAA + acordo de transferência internacional de dados. Aplica-se em ML com dados clínicos, jurídicos, financeiros — frequentemente exigência regulatória direta.

Quando NÃO se aplica

Não se aplica em dados públicos não-personalizados: estatísticas agregadas oficiais, jurisprudência publicada (com cuidado em casos onde indivíduos identificáveis aparecem). Não se aplica em pesquisa puramente teórica ou computacional sem dados pessoais. Não se aplica plenamente em dados antigos onde sujeitos identificáveis estão falecidos há mais de 50 anos (varia por jurisdição). Não substitui aprovação ética: conformidade legal e aprovação CEP/IRB são complementares, não alternativos. Não se aplica como critério único: dados não-classificados como sensíveis ainda podem causar dano se mal-tratados (e.g., dados acadêmicos detalhados podem permitir identificação por contexto).

Aplicações por área

— Saúde: HIPAA nos EUA, LGPD no Brasil; armazenamento criptografado, acesso por papel, audit logs. — Pesquisa em redes sociais: dados públicos podem revelar atributos sensíveis; ética IRB cada vez mais rigorosa. — Genômica: bancos como UK Biobank têm acordo de uso restrito; Personal Genome Project com consentimento explícito para identificabilidade. — Pesquisa indígena: sistemas como CARE Principles (Coletivos Indígenas) complementam FAIR; soberania de dados.

Armadilhas comuns

A primeira armadilha é confiar em anonimização tradicional como suficiente: literatura demonstra que combinação de quasi-identificadores (sexo, idade, CEP) frequentemente reidentifica indivíduos com alta acurácia. A segunda é não documentar plano de gestão de dados (Data Management Plan): exigência crescente de funders inclui especificação de armazenamento, acesso, retenção, destruição. A terceira é compartilhar dataset “anonimizado” sem checagem formal: pesquisador deve testar k-anonimato ou differential privacy antes de publicar. A quarta é assumir que consentimento original cobre usos secundários: muitos termos de consentimento são específicos ao estudo original; uso para outras pesquisas pode exigir novo consentimento. A quinta é negligenciar transferência internacional de dados: LGPD e GDPR têm regras específicas sobre transferência para países sem nível adequado de proteção; cláusulas contratuais padrão são exigidas.