Methodische Hinweise zur statistischen Geheimhaltung in den webbasierten Anwendungen der Statistik der BA

Auswahl und Anwendung eines Verfahrens der deterministischen Rundung

Das Wichtigste kurz zusammengefasst

Die statistische Geheimhaltung in den webbasierten Anwendungen der Statistik der BA wird mittels Rundung auf Vielfache der Basis zehn sichergestellt. Anders als das Zellsperrverfahren lässt sich die Rundung vollautomatisiert umsetzen und bietet Schutz vor der Offenlegung gesperrter Werte durch Rückrechnungen. Vorteile für Nutzer sind eine hohe Flexibilität beim Tabellenaufbau und eine große regionale und fachliche Auswertungstiefe. Wie beim Zellsperrverfahren treten Informationsverluste bei sehr kleinen Fallzahlen auf. Anders als bei der Zellsperrung bleiben Größenverhältnisse innerhalb der Tabelle immer erkennbar. Die Ergebnisse sind auswertungsübergreifend konsistent. Für die Darstellung von Anteilen und relativen Veränderungen werden Mindestfallzahlen festgelegt. In den übrigen Veröffentlichungen der Statistik der BA wird weiterhin das Zellsperrverfahren für die Geheimhaltung verwendet.

Zellsperrung für neue webbasierte Anwendungen überwiegend nicht geeignet

Die meisten Statistiken der BA stellen personenbezogene Daten dar. Die Verpflichtung zur statistischen Geheimhaltung gemäß § 16 des Bundesstatistikgesetzes und weiterer Gesetze gilt für die Statistik und Arbeitsmarktberichterstattung der BA entsprechend. Auch die in den neuen webbasierten Anwendungen der Statistik der BA veröffentlichten Daten beziehen sich überwiegend auf Personen und liegen zudem in großer fachlicher und regionaler Tiefe vor. Im Vergleich zu technisch vergleichbaren Angeboten anderer Anbieter stellt sich hier die Frage eines geeigneten Geheimhaltungsverfahrens in besonderem Maße.
Die Statistik der BA verwendet in ihren Veröffentlichungen bisher übergreifend das Zellsperrverfahren zur Sicherstellung der statistischen Geheimhaltung. Für die meisten Ergebnisdarstellungen im Rahmen der neuen webbasierten Anwendungen ist dieses Verfahren nicht geeignet. Aufgrund der Komplexität insbesondere des Ausschlusses von Möglichkeiten zur Rückrechnung stehen keine Algorithmen für eine automatisierte Umsetzung des Zellsperrverfahrens zur Verfügung. Selbst wenn diese verfügbar wären, würden sie die Performanz des Systems enorm einschränken, weil für jede vom Nutzer individuell erstellte Tabelle umfangreiche Berechnungen erforderlich wären. Das würde zu nicht akzeptablen Reaktionszeiten für die Nutzer führen. Zudem könnten Nutzer des geplanten Self-Service jene Werte, die in einzelnen Ergebnistabellen gesperrt sind, einfach mittels weiterer Auswertungen offenlegen (Beispiel: erste Auswertung – Frauen 98, Männer *; zweite Auswertung – Insgesamt 100).

Statistische Geheimhaltung durch Rundung auf die Basis zehn

Deshalb wird für die statistische Geheimhaltung in den neuen webbasierten Anwendungen die (automatisierte) deterministische Rundung als Geheimhaltungsverfahren verwendet.1 Bei der deterministischen Rundung wird jeder Wert einer Tabelle auf das jeweils nächstliegende Vielfache einer festgelegten Basis gerundet. Das Verfahren ist anerkannt und in der Literatur ausführlich beschrieben.2 Beispiele für Anwendungsfälle sind die Dreierrundung in der Berichterstattung des BIBB, die Fünferrundung in der Ausländerstatistik des Ausländerzentralregisters und die Zehnerrundung beim Zensus 2011.3
Rundungsbasis für die Ergebnisdarstellungen ist zehn. Die Abweichung von den Originalwerten ist bei dieser Basis höher als bei kleineren Basen. Dieses Argument tritt jedoch hinter den folgenden beiden zurück.
Sicherheit vor Aufdeckung: Für kleinere Rundungsbasen – hier am Beispiel von drei und fünf – lassen sich Konstellationen finden, die eine Aufdeckung der wahren Werte mithilfe der Randsummen zulassen.
Runden auf drei: 0 + 0 = 3 kann nur aus den Originaldaten 1 + 1 = 2 hervorgegangen sein.
Runden auf fünf: Hinter 0 + 0 + 0 + 0 = 10 kann nur die Konstellation 2 + 2 + 2 + 2 = 8 stehen.
Runden auf zehn: Dieses Problem kann nicht auftreten, falls zwischen einem auf null abgerundeten Wert und einem nicht vorhandenen Wert nicht unterschieden wird.
Transparenz: Anhand der dargestellten Werte ist vermutlich für viele Nutzer offensichtlich, dass es sich um gerundete Werte handelt. Selbst wenn Nutzer die entsprechenden methodischen Hinweise nicht beachten oder in der Weiterverwendung der Daten nicht an Auswertungen anbringen, bleibt das Rundungsverfahren leicht erkennbar.
Jeder Wert wird also auf das jeweils nächstliegende Vielfache von zehn gerundet. Bis zur Endziffer vier wird abgerundet, ab fünf aufgerundet (kaufmännisches Runden). Die größte mögliche Abweichung eines dargestellten Werts vom Originalwert beträgt somit fünf (vgl. Tabelle 1).

Beispiel – Rundung auf Vielfache von zehn

OriginalwertGerundeter WertAbweichung (absolut)
000
10-1
20-2
30-3
40-4
5105
6104
7103
8102
9101
10100
1110-1
1210-2
1310-3
1410-4
15205
16204

Tabelle 1: Beispiel – Rundung auf Vielfache von zehn

Vorteile und Nachteile der Verfahren

Das Verfahren der Rundung kann ohne hohen algorithmischen Aufwand und ohne größere Performanz-verluste in automatisierten Verfahren wie den neuen webbasierten Anwendungen implementiert werden. Dabei ist eine hohe Flexibilität der Nutzer beim individuellen Tabellenaufbau sichergestellt. Die Auswertungstiefe (z. B. regional – Kreise, Gemeinden oder fachlich – Berufe, Branchen) ist praktisch beliebig.
Ähnlich wie beim Zellsperrverfahren ist von höheren Informationsverlusten bei sehr kleinen Fallzahlen auszugehen. Allerdings bleiben auch bei überwiegend kleinen Fallzahlen die Größenverhältnisse inner-halb der Tabelle erkennbar, weil kein Wert mit eventuell höherer Fallzahl zum Ausschluss von Rückrechnungen gesperrt werden muss (Beispiel: Insgesamt 100, Männer 98, Frauen 2 wird bei Zellsperrung zu Insgesamt 100, Männer *, Frauen * oder zu Insgesamt *, Männer 98, Frauen *; bei Rundung auf Vielfache der Basis zehn bleibt Insgesamt 100, Männer 100, Frauen 0). Die Ergebnisse sind auswertungsübergreifend konsistent, weil jeder Originalwert immer auf den gleichen Wert gerundet wird. Gleichzeitig ist die auswertungsübergreifende Geheimhaltung sichergestellt, weil auch eine Auswertung in anderer Struktur – wie bei der Zellsperrung häufig möglich – keine Deanonymisierung erlaubt.

Summen (z. B. Jahressummen)

Summen werden auf Basis der Originalwerte berechnet und anschließend gerundet. Das führt möglich-erweise zu einer Abweichung zwischen den dargestellten Summanden und der zugehörigen Summe. Dafür liegt die angezeigte Summe grundsätzlich näher am Originalwert (vgl. Tabelle 2). Zusätzlich wird jeder Wert immer gleich angezeigt, egal ob er in der aktuellen Darstellung als Einzelwert oder als Summe erscheint (vgl. Tabellen 2 und 3).
Dieser Regel entsprechend werden Jahressummen als Summe der ungerundeten Monatswerte berechnet und dann auf ein Vielfaches von zehn gerundet.

Beispiel 1 – Summenbildung

MerkmalAnzahl OriginalSumme gerundetAnzahl gerundet
A7470
B1310
C1110
D30
Summe (A-D)10110090

Tabelle 2: Beispiel 1 – Summenbildung

Beispiel 2 – Summenbildung

MerkmalAnzahl OriginalSumme gerundetAnzahl gerundet
A-D101100
E-H134130
I-M113110
N-Z232230
Summe (A-Z)580580570

Tabelle 3: Beispiel 2 – Summenbildung

Arithmetische Mittel (z. B. Jahresdurchschnitt)

Bei der Durchschnittsbildung wird die gerundete Summe der Originalwerte verwendet, um größere Abweichungen des angezeigten Durchschnitts von dem auf Basis der Summe der Originalwerte errechneten Durchschnitt zu vermeiden (vgl. Tabelle 4). Entsprechend wird für die Berechnung von Jahresdurchschnitten die gerundete Jahressumme durch zwölf geteilt und das Ergebnis auf eine ganze Zahl gerundet.

Beispiel – Durchschnittsbildung

MerkmalAnzahl OriginalSumme gerundetAnzahl gerundetDarstellung in den Anwendungen
A747070
B131010
C111010
D300
Summe (A-D)10110090100
Durchschnitt25,32522,525

Tabelle 4: Beispiel – Durchschnittsbildung

Kennzahlen und Quoten

Kennzahlen und Quoten (z. B. Arbeitslosen- /Unterbeschäftigungsquoten) werden grundsätzlich auf Basis der Originalwerte berechnet.

Absolute Veränderungen

Absolute Veränderungen werden auf Basis der gerundeten Werte errechnet (vgl. Tabelle 5).

Beispiel – Berechnung von absoluten Veränderungen

WertAktueller MonatVormonatVeränderung absolut
Original2542504
Gerundet2502500

Tabelle 5: Beispiel – Berechnung von absoluten Veränderungen

Relative Veränderungen und Anteilswerte

Relative Veränderungen und Anteilswerte werden auf Basis der Originalwerte berechnet und anschließend auf ganze Zahlen gerundet (vgl. Tabellen 6 und 7). Dieses Verfahren wird der Berechnung von Anteilen und Veränderungen auf Basis gerundeter Werte vorgezogen.
Die Vorteile einer Berechnung auf Basis gerundeter Werte bestünden vor allem darin, dass sie vom Nutzer anhand der dargestellten Absolutwerte nachvollzogen werden könnten. Zudem lägen die dargestellten Werte bei großen Fallzahlen oft näher am Originalwert als bei einer Berechnung auf Basis der Originalwerte und anschließender Rundung. Das Verfahren hat jedoch auch Nachteile; so wichen die dargestellten Werte bei kleineren Fallzahlen (unterhalb 1.000) oft stärker ab als bei einer Berechnung mit Originalwerten. Die ausgewiesene Kommastelle suggerierte eine Genauigkeit, die de facto (zumindest bei kleineren Fallzahlen) nicht gegeben ist. Schließlich ließen sich die dargestellten Anteile meist nicht zu 100 % aufsummieren. Anteile von über 105 % oder unter 95 % in der Summe könnten Nutzer irritieren.

Die Vorteile einer Berechnung auf Basis der Originalwerte liegen vor allem darin, dass die dargestellten Werte bei kleineren Fallzahlen oft deutlich näher am Originalwert liegen als bei der Berechnung mit gerundeten Werten. Anteilswerte lassen sich zudem meist zu 100 % (Abweichungen von höchstens einem Prozentpunkt) aufsummieren. Ein Nachteil liegt darin, dass die Berechnung vom Nutzer nicht nachvollzogen werden kann, weil er die Originalwerte nicht kennt und das Ergebnis als „falsch“ fehlinterpretiert. Diese Gefahr ist jedoch auch bei der Berechnung von Summen auf Basis der Originalwerte gegeben, und das einheitliche Vorgehen bei der Summenbildung und bei der Berechnung von Anteilen und Veränderungen ist aus Nutzersicht ein Vorteil. Nachteilig ist zudem, dass absolute und relative Veränderungen auf Basis unterschiedlicher Ausgangswerte berechnet werden sowie dass die dargestellten Werte bei großen Fallzahlen (über 1.000) mitunter stärker von den Originalwerten abweichen als bei einer Berechnung mit gerundeten Werten (ohne anschließende Rundung des Ergebnisses). Wir nehmen jedoch an, dass für Nutzer durchgängig geringe Abweichungen in ähnlicher Größenordnung akzeptabler sind als hohe Abweichungen bei kleinen Fallzahlen und zunehmende Präzision bei hohen Fallzahlen. Dies kommt Nutzern von Daten auf regionaler Ebene, die tendenziell kleinere Werte betrachten, entgegen und mindert den Nutzen für Betrachter eher großer Zahlen nicht deutlich.

Beispiel – Berechnung von relativen Veränderungen

WertAktueller MonatVormonatVeränderung absolutVeränderung relativ in %
Original25425041,6
Gerundet25025002

Tabelle 6: Beispiel – Berechnung von relativen Veränderungen

Beispiel – Anteilsberechnung

WertGesamtunter 2525 bis unter 5050 und älterAnteil unter 25Anteil 25 bis unter 50Anteil 50 und älterSumme Anteile
Original255824613,196,50,4100
Gerundet260102500396099

Tabelle 7: Beispiel – Anteilsberechnung

Um die Aufdeckung geschützter Werte zu verhindern, ist bei der Berechnung von Anteilen und Veränderungen auf Basis der Originalwerte und anschließender Rundung des Ergebnisses auf ganze Zahlen eine Mindestfallzahl für den Nenner festzulegen. Für Veröffentlichungen im Rahmen der neuen webbasierten Anwendungen wird diese auf 250 festgelegt und bietet damit Sicherheit vor Aufdeckung auch in sehr seltenen Wertekonstellationen (vgl. Tabellen 7 und 8). Sofern der Nenner ein Durchschnitt ist, bezieht sich die Mindestfallzahl von 250 auf die dem Durchschnitt zugrundliegende Summe. (z. B.: Bei Veränderungen von Jahresdurchschnitten muss nicht der Jahresdurchschnitt im Nenner mindestens 250 betragen, sondern nur die dem Jahresdurchschnitt zugrundeliegende Jahressumme des Nenners).

Beispiel – Darstellung von Veränderungen bei Unterschreitung der Mindestfallzahl 250

WertAktueller MonatVormonatVeränderung absolutVeränderung relativ in %
Original32150,0
Gerundet000(50)
x

Tabelle 8: Beispiel – Darstellung von Veränderungen bei Unterschreitung der Mindestfallzahl 250

Beispiel – Darstellung von Anteilen bei Unterschreitung der Mindestfallzahl 250

WertGesamtunter 2525 bis unter 5050 und älterAnteil unter 25Anteil 25 bis unter 50Anteil 50 und älter
Original9478617,491,51,1
Gerundet9010900(7)
x
(91)
x
(1)
x

Tabelle 9: Beispiel – Darstellung von Anteilen bei Unterschreitung der Mindestfallzahl 250

Fazit

Aus den hier angestellten Überlegungen geht das Runden auf Vielfache der Basis zehn als realisierbares und mit Blick auf Sicherheit und Nutzerbedarfe sinnvolles Verfahren hervor. Dies gilt für die Ergebnisdarstellungen in den neuen webbasierten Anwendungen der Statistik der BA, bei denen es als Lösungsweg für die Anforderung, die statistische Geheimhaltung sicherzustellen, methodisch und technisch konzipiert wurde und implementiert wird. In den übrigen Veröffentlichungen der Statistik der BA wird weiterhin das Zellsperrverfahren für die Geheimhaltung verwendet.

Literaturverzeichnis

Gießing, S. et al. (2014): Geheimhaltung beim Zensus 2011. Statistisches Bundesamt (Hrsg.): Wirtschaft und Statistik, H .11, S. 641-647.
Rohde, J. et al. (2018): Entscheidungskriterien für die Auswahl eines Geheimhaltungsverfahrens. Statistisches Bundesamt (Hrsg.): Wirtschaft und Statistik, H. 3

________________________

1) Die Rundung bietet keine Lösung für die Geheimhaltung von Dominanzfällen. Diese wird in den Ergebnisdarstellungen der Datenräumen Statistik durch ein eigenes automatisiertes Verfahren umgesetzt
2) z. B. Rohde, J. et al. (2018): Entscheidungskriterien für die Auswahl eines Geheimhaltungsverfahrens. Statistisches Bundesamt (Hrsg.): Wirtschaft und Statistik, H.
3) Gießing, S. et al. (2014): Geheimhaltung beim Zensus 2011. Statistisches Bundesamt (Hrsg.): Wirtschaft und Statistik, H .11, S. 641-647.