Anonimizacja danych
Anonimizacja danych – czynność polegająca na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby fizycznej albo, jeżeli przyporządkowanie takie wymagałoby niewspółmiernych kosztów, czasu lub działań (art. 3 pkt 1 ustawy z dnia 16 września 2011 r. o wymianie informacji z organami ścigania państw członkowskich Unii Europejskiej, państw trzecich, agencjami Unii Europejskiej oraz organizacjami międzynarodowymi (Dz.U. z 2023 r. poz. 783).
Anonimizacja pozwala na trwałe usunięcie powiązań między danymi osobowymi, a osobą, której dotyczą. W ten sposób informacje, które przed anonimizacją były danymi osobowymi, przestają nimi być.
Każda z metod anonimizacji w inny sposób modyfikuje dane. Odmienne charakterystyki metod powodują, że wybór techniki uzależniony jest od uwarunkowań danej sytuacji. Niektóre z technik dają możliwość użycia ich w kombinacji (np. supresja rejestrów po generalizacji). Metody anonimizacji danych to:
- Randomizacja – losowy rozdział danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną. Zmiana układu danych w zestawie tak, aby poszczególne wartości zmiennych nadal były reprezentowane w zbiorze danych, generalnie nie odpowiadając oryginalnemu rejestrowi. Dodatkowe techniki stosowane w randomizacji to:
- Dodanie zakłóceń, czyli modyfikacja atrybutów osób fizycznych, która utrudnia identyfikację np. zmiana miejsca zamieszkania, modyfikacja wieku o +/− 5 lat.
- Permutacja, czyli tasowanie wartości atrybutów w tabelach przez podstawianie wartości z jednego zapisu do innego zapisu.
- Generalizacja (uogólnienie) – celowe obniżenie precyzji danych (np. zmiana dokładnego wieku osoby na przedział wiekowy).
- Supresja atrybutów – odnosi się do usunięcia całej partii danych (w arkuszach i bazach danych nazywanej również “kolumną”) w zestawie danych.
- Supresja rejestrów – dotyczy usunięcia całego rejestru w zestawie danych. W odróżnieniu od innych technik, ta metoda wpływa na wiele zmiennych jednocześnie.
- Maskowanie znaków – zmiana znaków wartości danych np. przez użycie stałego symbolu (np. „*” lub „x”). Maskowanie dotyczy tylko części znaków danej zmiennej.
- Pseudonimizacja (kodowanie) – zamiana wartości zmiennej z rzeczywistych na fikcyjne. Odwracalna pseudonimizacja występuje, gdy rzeczywiste wartości zmiennej są bezpiecznie przechowywane i w razie potrzeby mogą zostać odzyskane i połączone z pseudonimem. Gdy pierwotne wartości zostaną odpowiednio usunięte, pseudonimizacja jest nieodwracalna.
- Perturbacja danych – za dane rzeczywiste podstawiane są wartości, które w niedużym stopniu odbiegają od oryginalnych wartości zmiennej.
- Dane syntetyczne – technika używana głównie do bezpośredniego generowania syntetycznych zestawów danych, bez związku ze zbiorem danych rzeczywistych.
- Agregacja danych – konwersja listy wartości danych w zagregowane wielkości.
- Spełnienie zgodności z przepisami ochrony danych osobowych.
- Zapewnienie bezpieczeństwa danych w środowisku nieprodukcyjnym.
- Brak konieczności uzyskania zgody na przetwarzanie danych.
- Możliwość wykorzystania danych zanonimizowanych do innych celów niż wstępnie założone.
- Dane mogą być przechowywane przez nieograniczony czas.
- Istnieje możliwość międzynarodowego eksportowania danych.
- Ryzyko wyodrębnienia – możliwość wyizolowania niektórych lub wszystkich wartości identyfikujących daną osobę w zbiorze danych.
- Ryzyko powiązania – możliwość powiązania co najmniej dwóch wartości dotyczących tego samego podmiotu danych lub grupy podmiotów (zarówno w jednej, jak i dwóch różnych bazach danych).
- Ryzyko konkluzji – możliwość dedukcji wartości zmiennej ze zbioru wartości innych zmiennych.
- Microsoft Azure[4], Microsoft
- Oracle Advanced Security[5], Oracle
- IBM Security Guardium[6], IBM
- Dynamic Data Masking[7], Informatica[8]
- Micro Focus Data Express™[9], Micro Focus
- Mage Dynamic Data Masking[10]
- CA Data Manager[11], CA Technologies
- Compuware[12]
- IRI Field Shield[13], IRI
- Data Base Protector[14], Protegrity
- Thales eSecurity[15], Thales
- Soflab GALL[16], Soflab Technology
Przypisy
edytuj- ↑ Personal Data Protection Commission Singapore (PDPC): GUIDE TO BASIC DATA ANONYMISATION TECHNIQUES. 2018-01-25.
- ↑ a b The Ultimate Guide to Data Anonymization in Analytics – Piwik PRO. Piwik PRO, 2018-07-12. [dostęp 2018-11-21]. (ang.).
- ↑ Gartner, Inc.: Data Masking Technologies Reviews. Gartner. [dostęp 2018-11-21]. (ang.).
- ↑ ronitr: Usługa Azure SQL Database dynamiczne maskowanie danych. docs.microsoft.com. [dostęp 2018-11-21].
- ↑ Oracle Data Masking and Subsetting Pack. www.oracle.com. [dostęp 2018-11-21]. (ang.).
- ↑ Guardium Data Protection – Polska | IBM. www.ibm.com. [dostęp 2018-11-21].
- ↑ Data Masking: Data Obfuscation & Encryption | Informatica US. www.informatica.com. [dostęp 2018-11-21]. (ang.).
- ↑ Informatica. [dostęp 2018-11-21]. (ang.).
- ↑ Data Express | Micro Focus. www.microfocus.com. [dostęp 2018-11-21].
- ↑ index. magedata.ai. [dostęp 2018-11-21]. (ang.).
- ↑ CA Test Data Manager | CA Communities. ca-tech.jiveon.com. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)].
- ↑ Test Data Privacy – Compuware. Compuware. [dostęp 2018-11-21]. (ang.).
- ↑ IRI FieldShield Data Masking | IRI, The CoSort Company. www.iri.com. [dostęp 2018-11-21]. (ang.).
- ↑ Database Protector | Protegrity. Protegrity. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)]. (ang.).
- ↑ Vormetric Vaultless Tokenization with Dynamic Data Masking | Vaultless Data Tokenization | Thales eSecurity. www.thalesesecurity.com. [dostęp 2018-11-21]. (ang.).
- ↑ Soflab. soflab.pl. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2023-06-24)]. (ang.).