Hintergrundinformation Statistische Geheimhaltung

Die Statistik der BA beachtet die Anforderungen des Datenschutzes für Sozialdaten und die Grundsätze der Statistischen Geheimhaltung gemäß Bundesstatistikgesetz.

Rechtliche Grundlagen der statistischen Geheimhaltung

Bei der Erstellung einer Statistik geht es in der Regel um die Erhebung und Verarbeitung personenbezogener Daten, auch wenn das Interesse der Statistik dabei nicht dem Bürger als Individuum, sondern nur als "Merkmalsträger" innerhalb der statistischen Grundgesamtheit gilt. Für die Statistik der Bundesagentur für Arbeit (BA) gilt der Grundsatz der Statistischen Geheimhaltung gemäß § 281 Abs. 3 SGB III in Verbindung mit § 16 des Bundesstatistikgesetzes (BStatG). Darüber hinaus orientiert sich die Statistik der BA an den Regeln der Verordnung EG Nr. 223/2009 des Europäischen Parlaments und des Rates vom 11. März 2009 über europäische Statistiken und an der DSGVO. Unter statistischer Geheimhaltung in diesem Sinne versteht sich grundlegend die Verschwiegenheitspflicht, welcher die Mitarbeiter von statistischen Stellen – zu welcher die Statistik der BA als einzelstaatliche Stelle für die Entwicklung, Erstellung und Verbreitung europäischer Statistiken i. S. d. Art. 5 Abs. 2 der o. g. Verordnung zählt – unterliegen. Dem Statistikgeheimnis wurde im Volkszählungsurteil von 1983 (BVerfGE 65,1) eine herausragende Bedeutung zugewiesen, es gilt als das zentrale Fundament der Beziehungen von statistischen Behörden zu den Auskunft gebenden Stellen. Diese Regelungen sind strenger als die des allgemeinen Datenschutzes und des Sozialdatenschutzes. Für die Statistiken der Bundesagentur gelten die Vorschriften der Geheimhaltung nach § 16 des BStatG entsprechend. Das Statistikgeheimnis ist durch technische und organisatorische Maßnahmen der Trennung zwischen statistischen und nicht statistischen Aufgaben zu gewährleisten.

Alle mit der Durchführung von amtlichen Statistiken betrauten Personen sind verpflichtet, statistische Einzelangaben geheim zu halten und grundsätzlich nur für statistische Zwecke zu verwenden. Dies beinhaltet, dass direkt für statistische Zwecke oder indirekt aus administrativen oder sonstigen Quellen eingeholte vertrauliche Angaben über einzelne statistische Einheiten geschützt werden müssen, wobei die Verwendung der eingeholten Angaben für nicht statistische Zwecke und ihre unrechtmäßige Offenlegung untersagt sind. Als vertraulich zu schützen sind alle Daten, die eine direkte oder indirekte Identifizierung statistischer Einheiten möglich machen und dadurch

 Einzelinformationen offenlegen. Bei der Entscheidung, ob eine statistische Einheit identifizierbar ist, sind alle Mittel zu berücksichtigen, die nach vernünftigem Ermessen von einem Dritten angewendet werden können, um die statistische Einheit zu identifizieren.

Daher muss durch geeignete Maßnahmen sichergestellt werden, dass eine Verwendung der zusammengeführten Daten für andere als statistische Zwecke ausgeschlossen ist. Insbesondere sind Einzeldaten zu Personen und Betrieben geheim zu halten. Diese Maßnahmen gelten für die von der BA  zu verantwortende Arbeitsmarkt- und Grundsicherungsstatistik in gleichem Maße wie für andere statistische Stellen.

Die Erstellung von Arbeitsmarktstatistiken und die Übermittlung statistischer Daten durch die BA ist im Wesentlichen im SGB III im Kapitel sieben, erster Abschnitt durch die §§ 280 ff. im Rahmen der Aufgabenstellung „Statistiken, Arbeitsmarkt- und Berufsforschung“ und im Kapitel sieben des SGB II in den §§ 53 ff. „Statistik und Forschung“ geregelt. In den Bestimmungen zur Übermittlung von Daten wird dabei im § 281 Abs. 3 SGB III und § 53 Abs. 7 SGB II explizit auf die Geheimhaltungsnormen des BStatG verwiesen. Als Spezialfall des Datenschutzes werden die Vorschriften der Statistischen Geheimhaltung auch in den Datenschutzbestimmungen der BA behandelt.

Regeln der Statistischen Geheimhaltung

Mindestfallzahlregel

Aus den rechtlichen Vorgaben zum Datenschutz bzw. zur statistischen Geheimhaltung ergibt sich, dass im Zuge der statistischen Berichterstattung kein Rückschluss auf Einzelangaben möglich sein darf. Das bedeutet, dass solche Werte nicht zu veröffentlichen sind, die sich aus wenigen Einzelangaben zusammensetzen bzw. die nur wenige Einzelangaben repräsentieren, wenn damit eine exakte bzw. näherungsweise Offenlegung enthaltener Einzelangaben erreicht werden kann.

Um die Offenlegung zu verhindern, wird bestimmt, dass zu jedem Tabellenwert eine Mindestzahl an Fällen (z.B. Personen, Maßnahmen, Betriebe) vorhanden sein muss. Die Zahl der Mindestfälle richtet sich nach dem Risiko bzw. der Wahrscheinlichkeit des Offenlegens von Einzelangaben. Als Standard für die Mindestfallzahlregel gilt eine Mindestfallzahl von 3. Bei erhöhtem Risiko aufgrund eines hohen Detaillierungsgrades der Daten kann die Mindestfallzahl auch mit größer als 3 festgesetzt werden.

Beispiel 1: Mindestfallzahlregel

Region X

2

123

111

Region Y

88

1

60

Die beiden Felder mit den Fallzahlen 1 und 2 sind zu anonymisieren.

Erweiterte Mindestfallzahlregel

Geheimhaltungsbedürftig im Sinne der Mindestfallzahlregel ist nicht nur, wenn der Tabellenwert selbst kleiner als drei ist, sondern auch, wenn hinter diesem Wert (der durchaus deutlich größer sein kann) weniger als drei Fälle stehen. Diesen Sachverhalt tritt immer dann auf, wenn die Daten in einer hierarchischen Beziehung zueinanderstehen. In der Statistik der BA sind das insbesondere die folgenden Beziehungen:

Betriebe                                  <->      Beschäftigte

Betriebe                                  <->      Personen in Kurzarbeit / Anzeigen Kurzarbeit

Bedarfsgemeinschaften         <->      Personen in Bedarfsgemeinschaften und alle weiteren Merkmale

Anträge zur Vorfinanzierung von Insolvenzgeld (Zustimmung, Auszahlung)   <->      In Anträgen genannte Personen und Auszahlungshöhen

Beispiel 2: Schutz von Daten in hierarchischen Beziehungen

Gemeinde A

2

1

Gemeinde B

15

6

Gemeinde C

25

2

Gemeinde D

42

4

Die Zahl der Sozialversicherungspflichtig Beschäftigten (SvB) in der Gemeinde A muss anonymisiert werden, da die Mindestfallzahlregel dies unmittelbar erfordert. Die Zahl der Sozialversicherungspflichtig Beschäftigten in der Gemeinde C ist ebenfalls zu anonymisieren, da sie sich auf nur 2 Betriebe bezieht und somit auch hier die Mindestfallzahlregel anzuwenden ist. 

Dominanzregel

Darüber hinaus besteht ein erhöhtes Risiko der Offenlegung von Einzelangaben bei Daten, die in einer hierarchischen Beziehung zueinander stehen, auch dann, wenn ein Tabellenwert durch einen einzelnen dahinterstehenden Fall dominiert wird. Vor diesem Hintergrund gilt zur Gewährleistung der statistischen Geheimhaltung zusätzlich die sogenannte „Dominanzregel“. Die Statistik der BA wendet die (1,k)-Dominanzregel an. Ein Tabellenwert ist geheim zu halten, wenn der Anteil des größten Einzelwerts mehr als k % beträgt.

Diese Regel wird im Folgenden am Beispiel der Beschäftigungsstatistik erläutert:

Selbst wenn hinter der Beschäftigtenzahl eines Wirtschaftszweiges drei oder mehr Betriebe stehen, kann einer dieser Betriebe einen so hohen Beschäftigtenanteil auf sich vereinen, dass die Beschäftigtenzahl praktisch eine Einzelangabe über den Branchenführer darstellt. Würde dann der Wert der Beschäftigten für diese Branche in dieser Region ausgewiesen, so könnte leicht auf die Beschäftigtenzahl des Dominanzbetriebs rückgeschlossen werden.

Bei der sog. „Dominanzprüfung“ sind folgende Regelungen zu beachten:

  • Bei 3 bis 9 Betrieben, die hinter einer Beschäftigtenzahl eines Wirtschaftszweiges stehen, darf keiner der Betriebe 50 oder mehr Prozent der Beschäftigten auf sich vereinen.
  • Bei 10 oder mehr Betrieben dürfen auf keine Betriebseinheit 85 oder mehr Prozent der Beschäftigten des Wirtschaftszweiges entfallen.

Die Identifikation von Dominanzbetrieben ist über eine Differenzierung von Betrieben und Beschäftigten nach Betriebsgrößenklassen möglich.

Beispiel 3: Dominanzregel am Beispiel der Wirtschaftszweige

Abschnitt A51652152501100
Abschnitt B915915----
Abschnitt C111001010188--


Der Abschnitt A umfasst 5 Betriebe mit 165 sozialversicherungspflichtig Beschäftigte. In der Betriebsgrößenklasse 100-249 werden in einem Betrieb 100 sozialversicherungspflichtig Beschäftigte ausgewiesen. Dieser Betrieb stellt damit mehr als 50 Prozent der sozialversicherungspflichtig Beschäftigten dieses Abschnitts. Es ist deshalb eine Anonymisierung vorzunehmen.

Im Abschnitt C sind es 11 Betriebe mit 100 sozialversicherungspflichtig Beschäftigte. Eine Betriebsstätte beschäftigt 88 sozialversicherungspflichtig Beschäftigte, dies sind 88 Prozent der Beschäftigten dieses Abschnitts. Es ist eine Anonymisierung vorzunehmen.

Verfahren zur Sicherstellung der statistischen Geheimhaltung

Die Statistik setzt zwei Verfahren zur Sicherstellung der statistischen Geheimhaltung ein, das Zellsperrungsverfahren und ein Rundungsverfahren.

Zellsperrungsverfahren

Das Wichtigste kurz zusammengefasst:

Die statistische Geheimhaltung in den statischen Tabellen der Statistik der BA wird mittels Zellsperrverfahren umgesetzt. Das bedeutet, ein zu schützender Wert wird in der Tabelle entfernt und der Wert wird durch ein „*“ ersetzt.

Das Verfahren wird in zwei Stufen umgesetzt.

Stufe 1: Primäre Geheimhaltung:

Zunächst werden alle Werte, die unterhalb der Mindestfallzahl liegen und/oder der Dominanzregel unterliegen, in einer Tabelle identifiziert, und die Zelle wird gesperrt. Das bedeutet, ein zu schützender Wert wird in der Tabelle entfernt und der Wert wird durch ein „*“ ersetzt.

Stufe 2: Sekundäre Geheimhaltung:

Wenn diese gesperrten Zellen durch Einbeziehung von Spalten- oder Zeilensummen oder andere Vergleichswerte miteinander in einem rechnerischen Zusammenhang stehen, die es ermöglichen, den Inhalt bereits gesperrter Tabellenfelder über einfache Rechenoperationen zu ermitteln.

Für jedes Feld, dessen Inhalt aufgrund primärer Geheimhaltung gesperrt wurde, muss geprüft werden, ob sich

  • aus einer übergeordneten Einheit,
  • in Verbindung mit einer oder mehreren gleichrangigen Einheiten, die die übergeordnete Einheit gemeinsam mit dem gesperrten Wert vollständig abbilden,

der gesperrte Wert wieder errechnen lässt. Gleiches gilt für durch obige Herangehensweise gesperrte Tabellenwerte, d.h. es kann notwendig sein, mehrere aufeinander aufbauende Prüfgänge zu durchlaufen und weitere Werte zu sperren.

Primäre Geheimhaltung

Zunächst werden alle Werte, die unterhalb der Mindestfallzahl liegen und/oder der Dominanzregel unterliegen, in einer Tabelle identifiziert, und die Zelle wird gesperrt. Das bedeutet, ein zu schützender Wert wird in der Tabelle entfernt und der Wert wird durch ein „*“ ersetzt.

Beispiel 4: Zellsperrungsverfahren – Primäre Geheimhaltung
Insgesamt226124
dav. Region X14284
dav. Region Y844-

Die fett markierten Zahlen unterliegen der primären Geheimhaltung und werden durch ein * ersetzt.

Beispiel 4: Zellsperrungsverfahren – Primäre Geheimhaltung - Zwischenergebnis
Insgesamt226124
dav. Region X14*84
dav. Region Y844-

Sekundäre Geheimhaltung

Neben der primären Geheimhaltung müssen statistische Darstellungen auch einer Prüfung der sekundären Geheimhaltung unterworfen werden. Das ist immer dann notwendig, wenn Einzelfelder durch Einbeziehung von Spalten- oder Zeilensummen oder andere Vergleichswerte miteinander in einem rechnerischen Zusammenhang stehen, die es ermöglichen, den Inhalt bereits gesperrter Tabellenfelder über einfache Rechenoperationen zu ermitteln.

Für jedes Feld, dessen Inhalt aufgrund primärer Geheimhaltung gesperrt wurde, muss geprüft werden, ob sich

  • aus einer übergeordneten Einheit,
  • in Verbindung mit einer oder mehreren gleichrangigen Einheiten, die die übergeordnete Einheit gemeinsam mit dem gesperrten Wert vollständig abbilden,

der gesperrte Wert wieder errechnen lässt. Gleiches gilt für durch obige Herangehensweise gesperrte Tabellenwerte, d.h. es kann notwendig sein, mehrere aufeinander aufbauende Prüfgänge zu durchlaufen und weitere Werte zu sperren.

Beispiel 5: Zellsperrungsverfahren – Sekundäre Geheimhaltung

In mehreren Schritten müssen alle Werte, die in einem rechnerischen Zusammenhang stehen geprüft werden, ob der zu schützende Wert identifiziert werden kann.

Schritt 1: Der Wert für Merkmal A, Region Y muss gesperrt werden, da er in Verbindung mit der Spaltensumme ermöglicht, den Wert für Merkmal A, Region X zu errechnen.

Schritt 2: Der Wert für Merkmal B, Region Y muss gesperrt werden, da er in Verbindung mit der Zeilensumme ermöglicht, den Wert für Merkmal A, Region Y zu errechnen und so auf Merkmal A, Region X geschlossen werden kann.

Schritt 3: Der Wert für Merkmal B, Region X muss gesperrt werden, da er in Verbindung mit der Spaltensumme ermöglicht, den Wert für Merkmal B, Region Y zu errechnen.

Beispiel 5: Zellsperrungsverfahren – Sekundäre Geheimhaltung - Ergebnis
Insgesamt226124
dav. Region X14**4
dav. Region Y8**-

Maßnahmen zur Reduzierung des Informationsverlustes

Um möglichst viele relevante Informationen zu erhalten, sollte man im Vorfeld von statistischen Anfragen überlegen, wie detailliert eine bestimmte Auswertung sein muss. Eine Möglichkeit besteht darin, den Fokus auf bestimmte wesentliche Kategorien anstelle der Abbildung aller einzelnen Ausprägungen eines Merkmals zu legen (Beispiel: Muss es bei berufsfachlichen Darstellungen immer der komplette Zwei- und Dreisteller nach tief gegliederten regionalen Strukturen sein oder gibt es aggregierte Darstellungen, die vergleichbar informativ sind?). Ein Verzicht auf nicht interessierende Kategorien oder Summen kann ebenfalls die vollständige Darstellung der benötigten Daten ermöglichen. Insbesondere ist es häufig hilfreich, nicht alle Merkmale miteinander zu kreuzen, sondern Kombinationen eher sparsam auszuwählen oder sich auf die "Ränder" von Tabellen zu konzentrieren.

Natürlich stehen die Statistik-Services bei Anfragen im Zusammenhang mit der Berücksichtigung datenschutzrechtlicher Belange gerne beratend zur Verfügung.

Rundungsverfahren

Das Wichtigste kurz zusammengefasst

Die statistische Geheimhaltung in den Interaktiven Statistiken der BA - automatisiert erstellte und durch die Nutzer parametrisierbare Web-Anwendungen - wird mittels Rundung auf Vielfache der Basis zehn sichergestellt. Anders als das Zellsperrverfahren lässt sich die Rundung vollautomatisiert umsetzen und bietet schon durch die einstufige Anwendung Schutz vor der Offenlegung gesperrter Werte durch Rückrechnungen. Vorteile für Nutzer sind eine hohe Flexibilität beim Tabellenaufbau und eine große regionale und fachliche Auswertungstiefe. Wie beim Zellsperrverfahren treten Informationsverluste bei sehr kleinen Fallzahlen auf. Anders als bei der Zellsperrung bleiben Größenverhältnisse innerhalb der Tabelle immer erkennbar. Die Ergebnisse sind auswertungsübergreifend konsistent.

Folgende Methoden werden im Rahmen des Rundungsverfahrens angewendet:

  • Summen (z. B. Jahressummen) werden auf Basis der Originalwerte berechnet, erst das Ergebnis wird auf ein Vielfaches von zehn gerundet.
  • Durchschnitte (z. B. Jahresdurchschnitte) werden auf Basis gerundeter Summen berechnet, das Ergebnis wird auf eine ganze Zahl (nicht auf ein Vielfaches von zehn) gerundet.
  • Kennzahlen und Quoten werden auf Basis der Originalwerte berechnet.
  • Absolute Veränderungen werden auf Basis der gerundeten Werte berechnet.
  • Relative Veränderungen und Anteile werden auf Basis der Originalwerte berechnet und anschließend auf ganze Zahlen gerundet.
  • Relative Veränderungen und Anteile werden erst ab einer Mindestfallzahl von 250 im Nenner ausgewiesen.

Die Fallzahlen zu beachten ist grundsätzlich wichtig, weil bei kleinen Werten die rundungsbedingte Abweichung stärker ins Gewicht fällt als bei großen.

Beim Vergleich mit anderen Publikationen der Statistik der BA ist darauf zu achten, dass dort in der Regel das Zellsperrungsverfahren zur statistischen Geheimhaltung zum Einsatz kommen.

Runden auf Basis 10

Für die meisten Ergebnisdarstellungen im Rahmen der Interaktiven Statistiken ist das Zellsperrverfahren nicht geeignet. Aufgrund der Komplexität insbesondere des Ausschlusses von Möglichkeiten zur Rückrechnung stehen keine Algorithmen für eine automatisierte Umsetzung des Zellsperrverfahrens zur Verfügung. Selbst wenn diese verfügbar wären, würden sie die Performanz des Systems enorm einschränken, weil für jede vom Nutzer individuell erstellte Tabelle umfangreiche Berechnungen erforderlich wären. Das würde zu nicht akzeptablen Reaktionszeiten für die Nutzer führen. Zudem könnten Nutzer des Self-Service jene Werte, die in einzelnen Ergebnistabellen gesperrt sind, einfach mittels weiterer Auswertungen offenlegen (Beispiel: erste Auswertung – Frauen 98, Männer *; zweite Auswertung – Insgesamt 100).

Deshalb wird für die statistische Geheimhaltung in den Interaktiven Statistiken die (automatisierte) deterministische Rundung als Geheimhaltungsverfahren verwendet. Bei der deterministischen Rundung wird jeder Wert einer Tabelle auf das jeweils nächstliegende Vielfache einer festgelegten Basis gerundet.

Rundungsbasis für die Ergebnisdarstellungen ist 10. Die Abweichung von den Originalwerten ist bei dieser Basis höher als bei kleineren Basen. Dieses Argument tritt jedoch hinter den folgenden beiden zurück.

Sicherheit vor Aufdeckung: Für kleinere Rundungsbasen – hier am Beispiel von 3 und 5 – lassen sich Konstellationen finden, die eine Aufdeckung der wahren Werte mithilfe der Randsummen zulassen.

Runden auf 3: 0 + 0 = 3 kann nur aus den Originaldaten 1 + 1 = 2 hervorgegangen sein.

Runden auf 5: Hinter 0 + 0 + 0 + 0 = 10 kann nur die Konstellation 2 + 2 + 2 + 2 = 8 stehen.

Runden auf 10: Dieses Problem kann nicht auftreten, falls zwischen einem auf null abgerundeten Wert und einem nicht vorhandenen Wert nicht unterschieden wird.

Transparenz: Anhand der dargestellten Werte ist vermutlich für viele Nutzer offensichtlich, dass es sich um gerundete Werte handelt. Selbst wenn Nutzer die entsprechenden methodischen Hinweise nicht beachten oder in der Weiterverwendung der Daten nicht an Auswertungen anbringen, bleibt das Rundungsverfahren leicht erkennbar.

Jeder Wert wird also auf das jeweils nächstliegende Vielfache von 10 gerundet. Bis zur Endziffer 4 wird abgerundet, ab 5 aufgerundet (kaufmännisches Runden). Die größte mögliche Abweichung eines dargestellten Werts vom Originalwert beträgt somit 5.

Beispiel 6: Runden auf ein Vielfaches von 10

0

0

0

1

0

-1

2

0

-2

3

0

-3

4

0

-4

5

10

5

6

10

4

7

10

3

8

10

2

9

10

1

10

10

0

11

10

-1

12

10

-2

13

10

-3

14

10

-4

15

20

5

16

20

4

Mit dem dargestellten Rundungsverfahren wird die Geheimhaltung sichergestellt, da nicht auf Enzelangaben geschlossen werden kann. Eine sekundäre Geheimhaltung ist beim Rundungsverfahren nicht erforderlich. 

Der Schutz von Daten in hierarchischer Beziehung ist mit dem Rundungsverfahren nicht möglich. Um in den Interaktiven Statistiken der BA dennoch Daten in hierarchischer Beziehung zu veröffentlichen, wird in diesen Fällen eine Kombination aus Rundungsverfahren und Zellsperrungsverfahren angewendet.

Summen

Summen werden auf Basis der Originalwerte berechnet und anschließend gerundet. Das führt möglicherweise zu einer Abweichung zwischen den dargestellten Summanden und der zugehörigen Summe. Dafür liegt die angezeigte Summe grundsätzlich näher am Originalwert. Zusätzlich wird jeder Wert immer gleich angezeigt, egal ob er in der aktuellen Darstellung als Einzelwert oder als Summe erscheint. Dieser Regel entsprechend werden Jahressummen als Summe der ungerundeten Monatswerte berechnet und dann auf ein Vielfaches von zehn gerundet.

Beispiel 7: Rundungsverfahren - Summen

A

74

70

70

B

13

10

10

C

11

10

10

D

3

0

0

Summe (A-D)

101

100

90

A-D

101

100

100

E-H

134

130

130

I-M

113

110

110

N-Z

232

230

230

Summe (A-Z)

580

570

580

Arithmetisches Mittel

Bei der Durchschnittsbildung wird die gerundete Summe der Originalwerte verwendet, um größere Abweichungen des angezeigten Durchschnitts von dem auf Basis der Summe der Originalwerte errechneten Durchschnitt zu vermeiden. Entsprechend wird für die Berechnung von Jahresdurchschnitten die gerundete Jahressumme durch zwölf geteilt und das Ergebnis auf eine ganze Zahl gerundet.

Beispiel 8: Rundungsverfahren – Arithmetisches Mittel

A

74

70

70

B

13

10

10

C

11

10

10

D

3

0

0

Summe

101

90

100

Durchschnitt

25,3


25

Kennzahlen und Quoten

Kennzahlen und Quoten (z. B. Arbeitslosen- /Unterbeschäftigungsquoten) werden grundsätzlich auf Basis der Originalwerte berechnet.

Absolute Veränderungen

Absolute Veränderungen werden auf Basis der gerundeten Werte errechnet und dargestellt.

Beispiel 9: Rundungsverfahren – Absolute Veränderungen

Aktueller Monat

254

250

Vormonat

250

250

absolute Veränderung

4

0

Relative Veränderungen und Anteilswerte

Relative Veränderungen und Anteilswerte werden auf Basis der Originalwerte berechnet und anschließend auf ganze Prozentzahlen gerundet (vgl. Beispiele 10 und 11). Dieses Verfahren wird der Berechnung von Anteilen und Veränderungen auf Basis gerundeter Werte vorgezogen.

Die Vorteile einer Berechnung auf Basis gerundeter Werte bestünden vor allem darin, dass sie vom Nutzer anhand der dargestellten Absolutwerte nachvollzogen werden könnten. Zudem lägen die dargestellten Werte bei großen Fallzahlen oft näher am Originalwert als bei einer Berechnung auf Basis der Originalwerte und anschließender Rundung. Das Verfahren hat jedoch auch Nachteile; so wichen die dargestellten Werte bei kleineren Fallzahlen (unterhalb 1.000) oft stärker ab als bei einer Berechnung mit Originalwerten. Die ausgewiesene Kommastelle suggerierte eine Genauigkeit, die de facto (zumindest bei kleineren Fallzahlen) nicht gegeben ist. Schließlich ließen sich die dargestellten Anteile meist nicht zu 100 % aufsummieren. Anteile von über 105 % oder unter 95 % in der Summe könnten Nutzer irritieren.

Die Vorteile einer Berechnung auf Basis der Originalwerte liegen vor allem darin, dass die dargestellten Werte bei kleineren Fallzahlen oft deutlich näher am Originalwert liegen als bei der Berechnung mit gerundeten Werten. Anteilswerte lassen sich zudem meist zu 100 % (Abweichungen von höchstens einem Prozentpunkt) aufsummieren. Ein Nachteil liegt darin, dass die Berechnung vom Nutzer nicht nachvollzogen werden kann, weil er die Originalwerte nicht kennt und das Ergebnis als „falsch“ fehlinterpretiert. Diese Gefahr ist jedoch auch bei der Berechnung von Summen auf Basis der Originalwerte gegeben, und das einheitliche Vorgehen bei der Summenbildung und bei der Berechnung von Anteilen und Veränderungen ist aus Nutzersicht ein Vorteil.

Nachteilig ist zudem, dass absolute und relative Veränderungen auf Basis unterschiedlicher Ausgangswerte berechnet werden sowie dass die dargestellten Werte bei großen Fallzahlen (über 1.000) mitunter stärker von den Originalwerten abweichen als bei einer Berechnung mit gerundeten Werten (ohne anschließende Rundung des Ergebnisses). Es ist anzunehmen, dass für Nutzer durchgängig geringe Abweichungen in ähnlicher Größenordnung akzeptabler sind als hohe Abweichungen bei kleinen Fallzahlen und zunehmende Präzision bei hohen Fallzahlen. Dies kommt Nutzern von Daten auf regionaler Ebene, die tendenziell kleinere Werte betrachten, entgegen und mindert den Nutzen für Betrachter eher großer Zahlen nicht deutlich.

Beispiel 10: Rundungsverfahren – Berechnung von relativen Veränderungen

Aktueller Monat

254

250

Vormonat

250

250

Veränderung absolut

4

0

Veränderung relativ

1,6

2

Beispiel 11: Rundungsverfahren – Berechnung von Anteilen

Original

255

8

246

1

3,1

96,5

0,4

100

Gerundet/dargestellt

260

10

250

0

3

96

0

99

Um die Aufdeckung geschützter Werte zu verhindern, ist bei der Berechnung von relativen Veränderungen und Anteilen auf Basis der Originalwerte sowie anschließender Rundung des Ergebnisses auf ganze Prozentzahlen eine Mindestfallzahl für den Nenner festzulegen. Für Veröffentlichungen im Rahmen der Interaktiven Statistiken wird diese auf 250 festgelegt. Sie bietet Sicherheit vor Aufdeckung auch in sehr seltenen Wertekonstellationen. Sofern der Nenner ein Durchschnitt ist, bezieht sich die Mindestfallzahl von 250 auf die dem Durchschnitt zugrundliegende Summe. Bei Veränderungen von Jahresdurchschnitten muss somit nicht der Jahresdurchschnitt im Nenner mindestens 250 betragen, sondern nur die dem Jahresdurchschnitt zugrundeliegende Jahressumme des Nenners.

Beispiel 12: Rundungsverfahren - Darstellung von Veränderungen bei Unterschreitung der Mindestfallzahl 250

Original

3

2

1

50,0

Gerundet / dargestellt

0

0

0

(50)

x

Beispiel 13: Rundungsverfahren - Darstellung von Anteilen bei Unterschreitung der Mindestfallzahl 250 

Original

94

7

86

1

7,4

91,5

1,1

Gerundet /dargestellt

90

10

90

0

(7)

x

(91)

x

(1)

x

Hinweise zur Interpretation

In den Interaktiven Statistiken der BA lassen sich je nach Auswahlmöglichkeiten beliebig kleinteilige Tabellen und Grafiken erstellen. Dabei ist zu beachten, dass bei kleinen Werten die rundungsbedingte Abweichung stärker ins Gewicht fällt als bei großen.

Die Aussagekraft von Absolutwerten ist grundsätzlich vom Kontext abhängig (100.000 Arbeitslose in Nordrhein-Westfalen sind anders zu interpretieren als 100.000 Arbeitslose im Saarland).

Beim Vergleich mit anderen Produkten der Statistik der BA ist darauf zu achten, dass dort in der Regel das Zellsperrungsverfahren zur statistischen Geheimhaltung zum Einsatz kommt.

Vergleich der Verfahren

Sicherheit

Beide Geheimhaltungsverfahren, die in der Statistik der BA angewendet werden, stellen zuverlässig die statistische Geheimhaltung sicher. Allerdings ist das Rundungsverfahren allein für Daten, die in einer hierarchischen Beziehung zueinanderstehen, unzureichend, denn ein Rückschluss z. B. auf die Zahl der Beschäftigten eines Betriebes könnte weiterhin möglich sein.

Informationsverlust

Sowohl beim Zellsperrungsverfahren als auch beim Rundungsverfahren ist von höheren Informationsverlusten bei sehr kleinen Fallzahlen auszugehen. Allerdings bleiben auch bei überwiegend kleinen Fallzahlen die Größenverhältnisse innerhalb der Tabelle beim Rundungsverfahren erkennbar, weil kein Wert mit eventuell höherer Fallzahl zum Ausschluss von Rückrechnungen gesperrt werden muss. Gleichzeitig ist die Auswertungstiefe (z. B. regional – Kreise, Gemeinden oder fachlich – Berufe, Branchen) praktisch beliebig.

Beim Zellsperrungsverfahren hingegen werden durch die sekundäre Geheimhaltung auch größere Werte entfernt. Tabellen in tiefer fachlicher und/oder regionaler Gliederung erhalten teilweise weit überwiegend gesperrte Zellen, weil durch die Differenzierung nur sehr wenige Fallzahlen mit hinreichender Größe entstehen. Dafür werden ansonsten die nicht gerundeten Originalwerte veröffentlicht.

Beispiel 14: Vergleich der Verfahren – Informationsverlust

Insgesamt

100

100

*

100

  Frauen

2

*

*

0

  Männer

98

*

98

100

Konsistenz

Die Ergebnisse beim Rundungsverfahren sind auswertungsübergreifend konsistent, weil jeder Originalwert immer auf den gleichen Wert gerundet wird. Gleichzeitig ist die auswertungsübergreifende Geheimhaltung sichergestellt, weil auch eine Auswertung in anderer Struktur keine Deanonymisierung – wie bei der Zellsperrung häufig möglich – erlaubt. Beim Zellsperrungsverfahren hingegen sind unterschiedliche Ergebnisse möglich, da entweder ein anderer Summand oder die Summe entfernt werden kann.

(technische) Umsetzung

Für das Zellsperrverfahren zur Sicherstellung der statistischen Geheimhaltung verwendet die Statistik der BA eine technische Arbeitshilfe, welche die primäre und sekundäre Geheimhaltung in statischen Tabellen umsetzt. Für die meisten Ergebnisdarstellungen im Rahmen der Interaktiven Statistiken ist das Zellsperrungsverfahren jedoch nicht geeignet. Aufgrund der Komplexität insbesondere des Ausschlusses von Möglichkeiten zur Rückrechnung stehen keine Algorithmen für eine automatisierte Umsetzung des Zellsperrverfahrens zur Verfügung. Selbst wenn diese verfügbar wären, würden sie die Performanz des Systems enorm einschränken, weil für jede vom Nutzer individuell erstellte Tabelle umfangreiche Berechnungen erforderlich wären. Das würde zu nicht akzeptablen Reaktionszeiten für die Nutzer führen. Das Rundungsverfahren kann bei den Interaktiven Statistiken ohne Einschränkung der Performanz des Systems umgesetzt werden. Zudem könnten Nutzer jene Werte, die in einzelnen Ergebnistabellen gesperrt sind, einfach mittels weiterer Auswertungen offenlegen.