Federated Learning: Wie KI aus verteilten Daten lernt ohne Privatsphäre zu verletzen

Von Dirk Röthig | CEO, VERDANTIS Impact Capital | 3. April 2026

Das Dilemma moderner KI-Entwicklung ist vertraut: Bessere Modelle brauchen mehr Daten, doch mehr Datenaggregation verletzt Privatsphäre und verstößt gegen DSGVO. Federated Learning verspricht einen Ausweg — Training direkt auf den Geräten der Nutzer, ohne dass rohe Daten je die lokale Umgebung verlassen. Wie reif ist die Technologie wirklich?

Tags: Federated Learning, Datenschutz, Maschinelles Lernen, KI-Wettbewerb, Privacy

Das Grundprinzip: Das Modell kommt zu den Daten

In klassischem Machine-Learning-Training werden Daten aus vielen Quellen in einem zentralen Rechenzentrum aggregiert, dort aufbereitet und zum Training eines Modells genutzt. Dieses Paradigma stößt bei sensiblen Daten an fundamentale rechtliche und ethische Grenzen: Patientendaten aus Kliniken, Finanztransaktionen, persönliche Kommunikation — all diese Daten dürfen aus gutem Grund nicht beliebig zusammengeführt werden.

Federated Learning (FL), 2017 von Google-Forschern McMahan et al. erstmals formalisiert beschrieben, dreht das Prinzip um: Statt Daten zum Modell zu bringen, wird das Modell zu den Daten geschickt (McMahan et al., 2017). Konkret: Ein globales Modell wird an viele teilnehmende Knoten (Geräte, Krankenhäuser, Unternehmen) verteilt. Jeder Knoten trainiert eine lokale Kopie des Modells auf seinen eigenen Daten. Anschließend werden nur die aktualisierten Modellgewichte — nicht die rohen Daten — an einen zentralen Server zurückgeschickt und dort aggregiert (Federated Averaging, FedAvg). Das verbesserte globale Modell wird wieder verteilt, und der Zyklus beginnt von vorn.

Das Ergebnis: Das Modell lernt aus den Daten aller Teilnehmer, ohne dass je ein Datenpunkt die lokale Umgebung verlässt. Zumindest in der Theorie.

Die drei Varianten des Federated Learning

Die Literatur unterscheidet drei FL-Architekturen mit unterschiedlichen Anwendungsfeldern:

Horizontales Federated Learning (Feature-homogen): Alle Teilnehmer haben dieselben Merkmale (Features), aber unterschiedliche Datenpunkte. Beispiel: mehrere Krankenhäuser, die alle dieselben Laborparameter erheben, aber unterschiedliche Patientenkollektive behandeln. Das ist das klassische FL-Setting, das Google für sein Gboard-Keyboard einsetzt, um Texteingabe-Vorhersagen zu verbessern (Google AI, 2023).

Vertikales Federated Learning (Sample-homogen): Verschiedene Organisationen haben unterschiedliche Merkmale zu denselben Datenpunkten. Beispiel: Eine Bank kennt die Kreditwürdigkeit eines Kunden, eine Krankenkasse kennt dessen Gesundheitszustand, ein Telekommunikationsanbieter kennt dessen Nutzungsverhalten. Durch VFL kann ein gemeinsames Modell trainiert werden, ohne dass eine Organisation Einblick in die Daten der anderen erhält.

Transfer Federated Learning: Weder Samples noch Features überschneiden sich vollständig. Über Domain-Adaptation-Techniken wird trotzdem Wissen zwischen Domänen transferiert — das mathematisch anspruchsvollste Setting, aber für praktische Anwendungen wie domänenübergreifende NLP-Modelle zunehmend relevant.

Anwendungen in der Medizin: Personalisierte Diagnostik ohne Datenaustausch

Die medizinische KI-Forschung war eine der ersten Domänen, die FL als Lösung für das Datensilo-Problem identifizierte. Kliniken weltweit sitzen auf enormen Mengen an Diagnosedaten — Röntgenbilder, MRT-Scans, Laborwerte, genomische Sequenzen — die für KI-Training unschätzbar wären, aber aus rechtlichen, ethischen und wettbewerblichen Gründen nicht geteilt werden.

Das Federated Tumor Segmentation (FeTS)-Projekt ist ein Pionierbeispiel: 71 Institutionen weltweit trainierten gemeinsam ein Hirntumor-Segmentierungsmodell auf insgesamt über 6.000 MRT-Datensätzen — ohne dass ein einziger Scan die jeweilige Institution verlassen hätte (Pati et al., 2022). Das resultierende Modell übertraf in seiner Generalisierungsfähigkeit alle lokal trainierten Einzelmodelle deutlich. Dieses Ergebnis bestätigt eine zentrale Hypothese von FL: Heterogene Trainingsdaten aus vielen Quellen führen zu robusteren Modellen als große aber homogene zentrale Datensätze.

In der klinischen Praxis setzt das Universitätsklinikum Hamburg-Eppendorf (UKE) zusammen mit mehreren deutschen Kliniken FL für Radiologie-KI ein: Diagnosealgorithmen für Lungenembolien werden auf lokalen PACS-Servern trainiert, nur Modellgewichte werden ausgetauscht (UKE, 2024). Das System ist vollständig DSGVO-konform und hat in klinischen Tests die Diagnosegenauigkeit messbar verbessert.

Anwendungen im Finanzsektor: Betrugserkennung ohne Datensharing

Der Finanzsektor leidet unter einem verwandten Dilemma: Betrugsmuster sind oft netzwerkartig — ein Angriff manifestiert sich gleichzeitig bei mehreren Banken. Um Betrugsmuster zu erkennen, wäre bankinstitutsübergreifendes Training optimal, aber der Austausch von Transaktionsdaten ist regulatorisch ausgeschlossen und wettbewerblich heikel.

Federated Learning bietet hier eine elegante Lösung. Das Konsortium WeBank, zusammen mit Ant Financial, hat vertikales Federated Learning für cross-institutionelles Kreditscoring implementiert und dabei demonstriert, dass FL-Modelle zentral trainierten Modellen in Accuracy und AUC-Score gleichwertig sind — ohne Datenaustausch (Yang et al., 2019). In Europa arbeitet ein Konsortium unter Führung des Finanzdienstleisters Mastercard an FL-basierter Echtzeit-Betrugserkennung, das 2026 in die Pilotphase geht (Mastercard, 2025).

Die European Banking Authority (EBA) hat FL explizit als regulatorisch kompatiblen Ansatz für kollaborative KI-Modelle in der Kreditwirtschaft bewertet — ein wichtiges Signal für die breite Adoption (EBA, 2024).

Verbleibende Datenschutzrisiken: Nicht so sicher wie gedacht

Die Kommunikation, dass bei FL keine rohen Daten übertragen werden, verführt zur Annahme vollständiger Datensicherheit. Diese Annahme ist falsch, und die Forschung hat mehrere Angriffsvektoren identifiziert:

Model Inversion Attacks: Aus den übertragenen Modellgradienten können unter bestimmten Voraussetzungen originale Trainingsdaten rekonstruiert werden — ein Angriff, der 2020 von Zhu et al. (NeurIPS) an FL-Standardarchitekturen demonstriert wurde (Zhu et al., 2020). Die Möglichkeit zur Rekonstruktion hängt von Modellarchitektur, Anzahl der Gradienten und Batchgröße ab.

Membership Inference Attacks: Angreifer können herausfinden, ob ein bestimmter Datenpunkt zum Trainingsdatensatz eines Knotens gehörte. Bei kleinen Kliniken mit seltenen Diagnosen kann dies die Identifizierung von Patienten ermöglichen.

Backdoor Attacks / Poisoning: Ein kompromittierter Teilnehmerknoten kann manipulierte Gradienten einschleusen, die das globale Modell subtil vergiften — ein Problem besonders in offenen FL-Systemen mit unbekannten Teilnehmern.

Die Forschung hat auf diese Angriffe reagiert: Differential Privacy (DP) fügt den Gradienten vor der Übertragung kalibrierten Lärm hinzu und begrenzt die Rekonstruierbarkeit — auf Kosten von Modellaccuracy (Dwork & Roth, 2014). Secure Multi-Party Computation (MPC) ermöglicht aggregierte Berechnungen, bei denen kein Teilnehmer die individuellen Beiträge der anderen sieht. Homomorphic Encryption (HE) erlaubt Berechnungen auf verschlüsselten Daten — extrem rechenaufwendig, aber kryptografisch sicher.

EU-Regulierung und DSGVO-Kompatibilität

Die Datenschutz-Grundverordnung (DSGVO) stellt hohe Anforderungen an die Verarbeitung personenbezogener Daten. FL wurde als potenzielle Lösung für DSGVO-konforme KI-Entwicklung schnell populär — doch die rechtliche Bewertung ist nuancierter.

Das Europäische Datenschutzbüro (EDPB) hat in einer Stellungnahme 2024 klargestellt: FL reduziert Datenschutzrisiken erheblich, hebt sie aber nicht vollständig auf. Wenn Modellgradienten zur Rekonstruktion von Trainingsdaten genutzt werden können, handelt es sich bei ihrer Übertragung weiterhin um die Verarbeitung personenbezogener Daten im Sinne der DSGVO (EDPB, 2024). Für medizinische und Finanzdaten gilt zusätzlich DSGVO Art. 9 (besondere Kategorien), der höchste Schutzstandards verlangt.

Der EU AI Act, der 2026 vollständig in Kraft tritt, behandelt FL-Systeme als hochriskante KI-Anwendungen, wenn sie in Bereichen wie Medizin, Strafverfolgung oder Kreditvergabe eingesetzt werden — mit entsprechenden Transparenz- und Dokumentationspflichten.

Ausblick: Wer führt das FL-Rennen an?

Google ist durch seinen Einsatz von FL in Android-Produkten der de-facto-Standard-Setzer: TensorFlow Federated (TFF) ist die meistgenutzte Open-Source-FL-Bibliothek weltweit. NVIDIA hat mit NVIDIA FLARE eine auf medizinische Bildverarbeitung spezialisierte FL-Plattform entwickelt, die in über 50 klinischen Studien eingesetzt wird. In Europa hat das Fraunhofer AISEC eine FL-Plattform entwickelt, die explizit auf DSGVO-Konformität und Angriffsresistenz ausgelegt ist (Fraunhofer AISEC, 2025).

Für Unternehmen, die mit sensiblen Daten arbeiten — Kliniken, Banken, Versicherungen, Pharmaunternehmen —, ist FL heute keine Zukunftstechnologie mehr, sondern ein ausgereiftes Werkzeug mit klaren Einsatzfeldern und bekannten Grenzen. Die Entscheidung für FL ist weniger eine technologische als eine strategische: Wer kollaborative KI ohne zentrale Datenkontrolle will, findet in FL ein reifes Fundament.

Quellenverzeichnis

EDPB (2024): Opinion on Federated Learning and GDPR Compliance. European Data Protection Board. Verfügbar unter: https://edpb.europa.eu/our-work-tools/our-documents/opinions
Dwork, C. & Roth, A. (2014): The Algorithmic Foundations of Differential Privacy. Foundations and Trends in Theoretical Computer Science, 9(3–4), 211–407.
EBA (2024): EBA Report on the Use of AI in the Banking Sector — Federated Learning Assessment. European Banking Authority, Paris. Verfügbar unter: https://www.eba.europa.eu
Fraunhofer AISEC (2025): Federated Learning Platform — GDPR-compliant AI training. Fraunhofer-Institut für Angewandte und Integrierte Sicherheit, München. Verfügbar unter: https://www.aisec.fraunhofer.de
Google AI (2023): Federated Learning at Google Scale. Google AI Blog. Verfügbar unter: https://ai.googleblog.com
Mastercard (2025): Mastercard announces EU federated learning pilot for fraud detection. Mastercard Newsroom. Verfügbar unter: https://newsroom.mastercard.com
McMahan, B. et al. (2017): Communication-Efficient Learning of Deep Networks from Decentralized Data. Proceedings of AISTATS 2017. arXiv:1602.05629.
Pati, S. et al. (2022): Federated learning enables big data for rare cancer boundary detection. Nature Communications, 13, 7346. https://doi.org/10.1038/s41467-022-33407-5
UKE (2024): Federated Learning für Radiologie-KI — Pilotprojekt Universität Hamburg. Universitätsklinikum Hamburg-Eppendorf, Hamburg.
Yang, Q. et al. (2019): Federated Machine Learning: Concept and Applications. ACM Transactions on Intelligent Systems and Technology, 10(2), 1–19. https://doi.org/10.1145/3298981
Zhu, L. et al. (2020): Deep Leakage from Gradients. Advances in Neural Information Processing Systems (NeurIPS), 33, 14774–14784.

Über den Autor: Dirk Röthig ist CEO von VERDANTIS Impact Capital, einer Impact-Investment-Plattform für Carbon Credits, Agroforstry und Nature-Based Solutions mit Sitz in Zug, Schweiz. Er analysiert KI-Technologien und ihre wirtschaftlichen Implikationen für Unternehmen und Investoren. Kontakt und weitere Artikel: verdantis.capital | LinkedIn

Von Dirk Röthig (Dirk Roethig)

Federated Learning: Wie KI aus verteilten Daten lernt ohne Privatsphäre zu verletzen

Federated Learning: Wie KI aus verteilten Daten lernt ohne Privatsphäre zu verletzen

Das Grundprinzip: Das Modell kommt zu den Daten

Die drei Varianten des Federated Learning

Anwendungen in der Medizin: Personalisierte Diagnostik ohne Datenaustausch

Anwendungen im Finanzsektor: Betrugserkennung ohne Datensharing

Verbleibende Datenschutzrisiken: Nicht so sicher wie gedacht

EU-Regulierung und DSGVO-Kompatibilität

Ausblick: Wer führt das FL-Rennen an?

Weitere Artikel von Dirk Röthig

Quellenverzeichnis

Tags

Author

Stats

Published

You Might Also Like

Two Conferences. One Week. The Same Missing Piece.

Day 2 at OHDSI Rotterdam: Everything You Learned Yesterday Isn't in Your Network Yet

400 Researchers Just Flew to Rotterdam to Do What QIS Does in Milliseconds

QIS Protocol vs. Lifebit CYNAPSE vs. GA4GH Beacon: A Federated Health Data Routing Architecture Comparison

QIS Protocol and France's PEPR Santé Numérique: Distributed Health Intelligence at National Scale