Anonimizacja danych

Anonimizacja danych – czynność polegająca na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby fizycznej albo, jeżeli przyporządkowanie takie wymagałoby niewspółmiernych kosztów, czasu lub działań (art. 3 pkt 1 ustawy z dnia 16 września 2011 r. o wymianie informacji z organami ścigania państw członkowskich Unii Europejskiej, państw trzecich, agencjami Unii Europejskiej oraz organizacjami międzynarodowymi (Dz.U. z 2023 r. poz. 783).

Anonimizacja pozwala na trwałe usunięcie powiązań między danymi osobowymi, a osobą, której dotyczą. W ten sposób informacje, które przed anonimizacją były danymi osobowymi, przestają nimi być.

Metody anonimizacji danych^[1]

Każda z metod anonimizacji w inny sposób modyfikuje dane. Odmienne charakterystyki metod powodują, że wybór techniki uzależniony jest od uwarunkowań danej sytuacji. Niektóre z technik dają możliwość użycia ich w kombinacji (np. supresja rejestrów po generalizacji). Metody anonimizacji danych to:

Randomizacja – losowy rozdział danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną. Zmiana układu danych w zestawie tak, aby poszczególne wartości zmiennych nadal były reprezentowane w zbiorze danych, generalnie nie odpowiadając oryginalnemu rejestrowi. Dodatkowe techniki stosowane w randomizacji to:
- Dodanie zakłóceń, czyli modyfikacja atrybutów osób fizycznych, która utrudnia identyfikację np. zmiana miejsca zamieszkania, modyfikacja wieku o +/− 5 lat.
- Permutacja, czyli tasowanie wartości atrybutów w tabelach przez podstawianie wartości z jednego zapisu do innego zapisu.
Generalizacja (uogólnienie) – celowe obniżenie precyzji danych (np. zmiana dokładnego wieku osoby na przedział wiekowy).
Supresja atrybutów – odnosi się do usunięcia całej partii danych (w arkuszach i bazach danych nazywanej również “kolumną”) w zestawie danych.
Supresja rejestrów – dotyczy usunięcia całego rejestru w zestawie danych. W odróżnieniu od innych technik, ta metoda wpływa na wiele zmiennych jednocześnie.
Maskowanie znaków – zmiana znaków wartości danych np. przez użycie stałego symbolu (np. „*” lub „x”). Maskowanie dotyczy tylko części znaków danej zmiennej.
Pseudonimizacja (kodowanie) – zamiana wartości zmiennej z rzeczywistych na fikcyjne. Odwracalna pseudonimizacja występuje, gdy rzeczywiste wartości zmiennej są bezpiecznie przechowywane i w razie potrzeby mogą zostać odzyskane i połączone z pseudonimem. Gdy pierwotne wartości zostaną odpowiednio usunięte, pseudonimizacja jest nieodwracalna.
Perturbacja danych – za dane rzeczywiste podstawiane są wartości, które w niedużym stopniu odbiegają od oryginalnych wartości zmiennej.
Dane syntetyczne – technika używana głównie do bezpośredniego generowania syntetycznych zestawów danych, bez związku ze zbiorem danych rzeczywistych.
Agregacja danych – konwersja listy wartości danych w zagregowane wielkości.

Korzyści związane z wykorzystaniem anonimizacji danych^[2]

Spełnienie zgodności z przepisami ochrony danych osobowych.
Zapewnienie bezpieczeństwa danych w środowisku nieprodukcyjnym.
Brak konieczności uzyskania zgody na przetwarzanie danych.
Możliwość wykorzystania danych zanonimizowanych do innych celów niż wstępnie założone.
Dane mogą być przechowywane przez nieograniczony czas.
Istnieje możliwość międzynarodowego eksportowania danych.

Zagrożenia towarzyszące anonimizacji danych^[2]

Ryzyko wyodrębnienia – możliwość wyizolowania niektórych lub wszystkich wartości identyfikujących daną osobę w zbiorze danych.
Ryzyko powiązania – możliwość powiązania co najmniej dwóch wartości dotyczących tego samego podmiotu danych lub grupy podmiotów (zarówno w jednej, jak i dwóch różnych bazach danych).
Ryzyko konkluzji – możliwość dedukcji wartości zmiennej ze zbioru wartości innych zmiennych.

Narzędzia do anonimizacji danych^[3]

Microsoft Azure^[4], Microsoft
Oracle Advanced Security^[5], Oracle
IBM Security Guardium^[6], IBM
Dynamic Data Masking^[7], Informatica^[8]
Micro Focus Data Express™^[9], Micro Focus
Mage Dynamic Data Masking^[10]
CA Data Manager^[11], CA Technologies
Compuware^[12]
IRI Field Shield^[13], IRI
Data Base Protector^[14], Protegrity
Thales eSecurity^[15], Thales
Soflab GALL^[16], Soflab Technology

Przypisy

↑ Personal Data Protection Commission Singapore (PDPC): GUIDE TO BASIC DATA ANONYMISATION TECHNIQUES. 2018-01-25.
↑ ^a ^b The Ultimate Guide to Data Anonymization in Analytics – Piwik PRO. Piwik PRO, 2018-07-12. [dostęp 2018-11-21]. (ang.).
↑ Gartner, Inc.: Data Masking Technologies Reviews. Gartner. [dostęp 2018-11-21]. (ang.).
↑ ronitr: Usługa Azure SQL Database dynamiczne maskowanie danych. docs.microsoft.com. [dostęp 2018-11-21].
↑ Oracle Data Masking and Subsetting Pack. www.oracle.com. [dostęp 2018-11-21]. (ang.).
↑ Guardium Data Protection – Polska | IBM. www.ibm.com. [dostęp 2018-11-21].
↑ Data Masking: Data Obfuscation & Encryption | Informatica US. www.informatica.com. [dostęp 2018-11-21]. (ang.).
↑ Informatica. [dostęp 2018-11-21]. (ang.).
↑ Data Express | Micro Focus. www.microfocus.com. [dostęp 2018-11-21].
↑ index. magedata.ai. [dostęp 2018-11-21]. (ang.).
↑ CA Test Data Manager | CA Communities. ca-tech.jiveon.com. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)].
↑ Test Data Privacy – Compuware. Compuware. [dostęp 2018-11-21]. (ang.).
↑ IRI FieldShield Data Masking | IRI, The CoSort Company. www.iri.com. [dostęp 2018-11-21]. (ang.).
↑ Database Protector | Protegrity. Protegrity. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)]. (ang.).
↑ Vormetric Vaultless Tokenization with Dynamic Data Masking | Vaultless Data Tokenization | Thales eSecurity. www.thalesesecurity.com. [dostęp 2018-11-21]. (ang.).
↑ Soflab. soflab.pl. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2023-06-24)]. (ang.).

[1] Personal Data Protection Commission Singapore (PDPC): GUIDE TO BASIC DATA ANONYMISATION TECHNIQUES. 2018-01-25.

[:0-2] The Ultimate Guide to Data Anonymization in Analytics – Piwik PRO. Piwik PRO, 2018-07-12. [dostęp 2018-11-21]. (ang.).

[3] Gartner, Inc.: Data Masking Technologies Reviews. Gartner. [dostęp 2018-11-21]. (ang.).

[4] ronitr: Usługa Azure SQL Database dynamiczne maskowanie danych. docs.microsoft.com. [dostęp 2018-11-21].

[5] Oracle Data Masking and Subsetting Pack. www.oracle.com. [dostęp 2018-11-21]. (ang.).

[6] Guardium Data Protection – Polska | IBM. www.ibm.com. [dostęp 2018-11-21].

[7] Data Masking: Data Obfuscation & Encryption | Informatica US. www.informatica.com. [dostęp 2018-11-21]. (ang.).

[8] Informatica. [dostęp 2018-11-21]. (ang.).

[9] Data Express | Micro Focus. www.microfocus.com. [dostęp 2018-11-21].

[10] x. magedata.ai. [dostęp 2018-11-21]. (ang.).

[11] CA Test Data Manager | CA Communities. ca-tech.jiveon.com. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)].

[12] Test Data Privacy – Compuware. Compuware. [dostęp 2018-11-21]. (ang.).

[13] IRI FieldShield Data Masking | IRI, The CoSort Company. www.iri.com. [dostęp 2018-11-21]. (ang.).

[14] Database Protector | Protegrity. Protegrity. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2018-11-21)]. (ang.).

[15] Vormetric Vaultless Tokenization with Dynamic Data Masking | Vaultless Data Tokenization | Thales eSecurity. www.thalesesecurity.com. [dostęp 2018-11-21]. (ang.).

[16] Soflab. soflab.pl. [dostęp 2018-11-21]. [zarchiwizowane z tego adresu (2023-06-24)]. (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Anonimizacja danych

Metody anonimizacji danych[1]

Korzyści związane z wykorzystaniem anonimizacji danych[2]

Zagrożenia towarzyszące anonimizacji danych[2]

Narzędzia do anonimizacji danych[3]

Przypisy

Metody anonimizacji danych^[1]

Korzyści związane z wykorzystaniem anonimizacji danych^[2]

Zagrożenia towarzyszące anonimizacji danych^[2]

Narzędzia do anonimizacji danych^[3]