auraVoice ist eine datenschutzkonforme Sprach KI Lösung, die drei spezialisierte KI Modelle kombiniert: OpenAI Whisper für Transkription, spaCy für lokale Pseudonymisierung und Anthropic Claude für Strukturierung. Personennamen werden ersetzt, bevor das Sprachmodell sie sieht.

Was ist der Unterschied zu ChatGPT Voice?

Lokale Pseudonymisierung VOR dem Cloud LLM Aufruf, mehrere spezialisierte Modelle statt eines Generalisten, individuell anpassbar an Branche und Workflow.

Welche Daten verlassen die eigene Infrastruktur?

Audio an OpenAI Whisper. Text an Anthropic Claude nach lokaler Pseudonymisierung. Personennamen verlassen die Infrastruktur niemals im Klartext.

auraVoice - Datenschutzkonforme Sprach-KI für regulierte Branchen |

01 / Problem

Diktiergerät kostet Zeit. Generische KI riskiert die Zulassung.

Definition

Datenschutzkonforme Sprach KI ist eine Sprachverarbeitungs-Architektur, die personenbezogene Daten lokal pseudonymisiert, bevor sie an externe Cloud-Sprachmodelle übermittelt werden. Sie kombiniert spezialisierte KI-Komponenten in einer festgelegten Reihenfolge und folgt dem Prinzip der Datenminimierung nach Artikel 5 DSGVO.

Es ist 16:30 Uhr. Eine Fachkraft hat gerade ein Beratungsgespräch beendet. Auf dem Schreibtisch liegen Stichworte, im Kopf weitere Details, die noch nicht aufgeschrieben sind. Der nächste Termin steht in zwanzig Minuten. Die Notiz für die Akte muss aber heute fertig werden.

Zwei Wege stehen zur Auswahl. Beide haben offensichtliche Schwächen.

Variante A · Klassisches Diktiergerät

Aufnahme starten, später transkribieren lassen, manuell formatieren, Personennamen prüfen, in die Akte übertragen. Datenschutzkonform, aber zeitintensiv. Funktioniert seit Jahren, ist aber nicht mehr zeitgemäss.

Variante B · Generische KI App

ChatGPT öffnen, Sprachaufnahme starten, Text strukturieren lassen. Schnell, modern, scheinbar elegant. Aber: Personennamen wandern in einen Cloud Dienst, der für medizinische, juristische oder steuerrechtliche Daten nicht zertifiziert ist. Bei berufsrechtlicher Verschwiegenheitspflicht ist das ein Compliance Verstoss.

In regulierten Branchen ist keiner der beiden Wege akzeptabel. Das ist kein Komfortproblem, sondern ein strukturelles. Generische Sprach KI ist für allgemeine Aufgaben gebaut, nicht für Domänen mit besonderen Datenschutzanforderungen. Wer DSGVO-Pflichten ernst nimmt, braucht eine andere Architektur.

3 Spezialisierte
KI Modelle

6 Strukturierungs
Modi

0 Gespeicherte
Personendaten

02 / Models

Jedes Modell sieht nur die Daten, die es wirklich braucht.

Datenschutzkonforme Sprach KI nutzt nicht ein generisches Sprachmodell für alles. Stattdessen arbeiten in auraVoice drei spezialisierte KI Komponenten in einer festgelegten Reihenfolge zusammen. Jede Komponente macht genau das, wofür sie am besten geeignet ist.

OpenAI Whisper · Transkription

Wandelt Audio in Text. Domänenspezifisches Vokabular wird über einen Personal Dictionary Mechanismus eingespielt. Fachbegriffe wie Bisphosphonat, Umsatzsteuervoranmeldung oder Investitionsabzugsbetrag werden korrekt erkannt. Standard Tools verstümmeln solche Eigennamen häufig zu unbrauchbarem Text. Details zur API in der OpenAI Whisper API Dokumentation.

spaCy · Lokale Pseudonymisierung

Named Entity Recognition Modell auf eigener Infrastruktur in Deutschland. Erkennt Personennamen und ersetzt sie durch konsistente Pseudonyme. Frau Schmidt wird zu Person 1, Herr Müller zu Person 2. Mehrfach genannte Namen behalten ihr Pseudonym im gesamten Text. Wir nutzen das deutsche Sprachmodell de_core_news_lg.

Anthropic Claude · Strukturierung

Erst jetzt kommt das Sprachmodell ins Spiel. Claude erhält den anonymisierten Text und strukturiert ihn in eines von sechs vordefinierten Markdown Formaten. Personennamen sind zu diesem Zeitpunkt bereits ersetzt. Das Modell sieht ausschliesslich Pseudonyme. Übersicht der Anthropic Claude Modelle.

03 / Pipeline

Die Reihenfolge ist die Architektur.

Pseudonymisierung könnte man auch nachträglich auf das fertige Protokoll anwenden. Das wäre der einfachere Weg. Aber er hätte einen entscheidenden Nachteil: das Sprachmodell hätte die echten Namen bereits gesehen, verarbeitet und potenziell für interne Statistiken oder Modell Verbesserungen genutzt. Bei auraVoice läuft die Pseudonymisierung deshalb VOR dem Cloud LLM Aufruf.

04 / Privacy

Das Mapping liegt nicht im System.

Die zentrale Architekturentscheidung der datenschutzkonformen Sprach KI ist nicht die Pseudonymisierung selbst. Es ist die Frage, was mit dem Mapping zwischen Pseudonym und echtem Namen passiert. Bei auraVoice wird dieses Mapping nicht gespeichert. Es bleibt im Kopf oder im Kalender des Nutzers.

Personennamen verlassen die Infrastruktur niemals im Klartext

Der Cloud LLM Anbieter sieht ausschliesslich Pseudonyme. Audio geht zwar an OpenAI Whisper, aber dort wird nur transkribiert, nicht analysiert oder gespeichert. Eine Zero Data Retention Vereinbarung mit beiden Anbietern stellt sicher, dass keine Daten für Modell Training verwendet werden. Die rechtliche Grundlage findet sich in der DSGVO, insbesondere zu Pseudonymisierung als Maßnahme nach Artikel 32. Die BfDI hat Pseudonymisierung im Januar 2025 als datenschutzfreundliche Maßnahme bestätigt.

Logs zählen nur, sie protokollieren nicht

Auf dem Server wird ausschliesslich die Anzahl der ersetzten Personennamen geloggt, niemals die Namen selbst. Das ist im Code dokumentiert und durch Tests abgesichert.

Re Identifikation ist Sache des Nutzers

Wer einen Patientenfall, einen Mandanten oder einen Kundenkontakt protokolliert hat, kann anhand des Aufnahme Zeitstempels und seines eigenen Kalenders zweifelsfrei zuordnen, wer Person 1 war. Niemand sonst kann das. Das ist die einfachste und gleichzeitig sicherste Form der Pseudonymisierung. Kein technisches System dazwischen, kein zusätzliches Compliance Risiko. Dieser Ansatz ergänzt unsere DSGVO-konforme KI-Plattform auraHub.

05 / Comparison

Datenschutzkonforme Sprach KI im Vergleich.

Wer Sprach KI für regulierte Branchen einsetzen will, hat heute drei realistische Optionen. Die Tabelle zeigt die strukturellen Unterschiede:

Kriterium	Diktiergerät	ChatGPT Voice	auraVoice
Aufwand pro Aufnahme	25-40 Minuten	2 Minuten	2 Minuten
Pseudonymisierung vor Cloud-LLM	manuell	nein	automatisch
Domänen-Vokabular	nein	nein	individuell
Strukturierte Output-Formate	nein	generisch	6 Modi
DSGVO Art. 9 tauglich	ja	nein	ja
Server-Standort	lokal	USA	Deutschland
Geeignet für Berufsgeheimnisträger	ja	nein	ja

Diktiergeräte sind compliance-tauglich, aber nicht effizient. ChatGPT Voice ist effizient, aber nicht compliance-tauglich für regulierte Berufe. Datenschutzkonforme Sprach KI wie auraVoice schliesst die Lücke.

06 / Modes

Sechs Output Formate. Wahl pro Aufnahme.

Nicht jedes Gespräch braucht dieselbe Struktur. auraVoice unterstützt aktuell sechs Output Formate, die für unterschiedliche Anwendungsfälle optimiert sind. Die Wahl erfolgt pro Aufnahme.

mode_01

Team Meeting

Themen, Entscheidungen, Action Items

mode_02

Kundengespräch

Kunde, Anliegen, Lösung, nächste Schritte

mode_03

Strategie

Ideen, Bewertung, Empfehlung

mode_04

1on1

Updates, Feedback, To Dos

mode_05

Briefing

Kontext, Anforderungen, Risiken

mode_06

Eigener Prompt

Frei definierbar pro Anwendungsfall

07 / Sectors

Das Problem ist überall ähnlich. Die Anforderungen unterscheiden sich.

Steuerkanzleien
Anwälte

Verschwiegenheit · §203 StGB

Mandantendaten unterliegen der Verschwiegenheitspflicht nach §203 Strafgesetzbuch. Notizen aus Mandantengesprächen müssen DSGVO konform verarbeitet werden. Gleichzeitig erwarten Mandanten zeitnahe Aktennotizen. Datenschutzkonforme Sprach KI löst beides ohne Kompromiss.

Arztpraxen
Therapeuten

Artikel 9 DSGVO

Patientendaten sind besondere Kategorien personenbezogener Daten nach Art. 9 DSGVO. Diktiersysteme müssen Compliance Vorgaben erfüllen, gleichzeitig muss medizinisches Fachvokabular wie Wirkstoffe, Diagnostik Akronyme oder Diagnose Codes korrekt erkannt werden.

Berater · HR
Vertrieb

Vertraulichkeit

Vertriebsnotizen, Strategiegespräche, interne Briefings, HR Gespräche enthalten sensitive Inhalte. Allgemeine SaaS Lösungen verarbeiten diese in US Cloud Infrastrukturen. Bei Geschäftsgeheimnissen, Personalsituationen oder Akquisitionsplänen ist das ein Risiko. Vergleichbare Architektur findet sich auch in auraIR für Investor Relations.

Handwerk
GaLaBau

Hände frei vor Ort

Beim Kundentermin, auf der Baustelle, im Auto zum nächsten Termin. Handschriftliche Notizen sind unpraktisch, generische Diktat Apps verarbeiten Kundennamen ungefiltert. auraVoice diktiert vor Ort und strukturiert direkt zur weiteren Bearbeitung im Büro.

08 / Limits

Pseudonymisierung ist Schutz. Nicht Garantie.

01

Modell Recall

Die Erkennung von Personennamen liegt im Bereich von 85 bis 95 Prozent. spaCy ist Industriestandard, aber kein Modell ist perfekt. Pseudonymisierung als Datenschutz Layer, nicht als juristische Garantie für vollständige Anonymisierung.
02

Indirekte Identifikatoren

Personennamen werden ersetzt. Andere Identifikatoren wie Geburtsdaten, seltene Diagnosen oder Adressdetails bleiben im Text. Bei seltenen Kombinationen kann eine Re Identifikation theoretisch möglich sein. Maßstab ist DSGVO Erwägungsgrund 26 zur Anonymisierung.
03

Cloud LLM Abhängigkeit

Whisper und Claude sind externe Komponenten. Eine Zero Data Retention Vereinbarung mit beiden Anbietern stellt sicher, dass keine Inhalte für Modell Training verwendet werden. Aber: die finale DSGVO Konformität für einen konkreten Anwendungsfall hängt von der individuellen Implementation ab.
04

Keine Substitution

Welche Inhalte das System verarbeitet, bleibt eine Entscheidung des Nutzers. Die KI liefert die Strukturierung. Die fachliche Bewertung, die Aktenführung, die berufsrechtliche Verantwortung bleiben beim Menschen.

09 / Workflow

Vom Diktat zur Akte. In zwei Klicks.

Vorher

25 bis 40 Minuten · Aufnehmen → Transkribieren → Strukturieren → In Akte

Nachher

Zwei Klicks · Aufnehmen → Modus wählen → fertig

Plattform

PWA auf iOS, Android, Desktop · Browser Extensions Chrome und Safari

Backend

Eigene Server in Deutschland · pseudonymisiert vor Cloud LLM

Status

Individuelle Implementation pro Kunde · Self Service in Vorbereitung

Verfügbar als Progressive Web App auf iPhone, iPad und Desktop, ohne Installation aus einem App Store. Browser Extensions für Chrome und Safari ermöglichen Diktat Funktionalität direkt in beliebigen Eingabefeldern: Mail Programmen, CRM Systemen, Aktensoftware oder Browser Formularen. Ergänzend zu unseren anderen KI-Anwendungen wie auraPress für Medienintelligenz.

$ Demo anfragen

auraVoice live erleben.

Wir zeigen live, wie datenschutzkonforme Sprach KI für Ihre konkrete Branche aussieht. Vom Diktat über die Pseudonymisierung bis zum strukturierten Protokoll. Für Steuerberater, Ärzte, Anwälte, Berater, Handwerk und alle, die mit personenbezogenen Daten arbeiten.

Anfrage senden →

FAQ / Reference

Häufig gestellte Fragen

Was ist datenschutzkonforme Sprach KI?

Datenschutzkonforme Sprach KI ist eine Sprachverarbeitungs-Architektur, die personenbezogene Daten lokal pseudonymisiert, bevor sie an externe Cloud-Sprachmodelle übermittelt werden. Sie kombiniert spezialisierte KI-Komponenten (Transkription, Pseudonymisierung, Strukturierung) in einer festgelegten Reihenfolge und folgt dem Prinzip der Datenminimierung nach DSGVO.

Welche Daten werden an externe Cloud Dienste übermittelt?

Audio wird an OpenAI Whisper übermittelt, ausschliesslich für die Transkription. Text wird an Anthropic Claude übermittelt, jedoch nach der lokalen Pseudonymisierung. Personennamen verlassen die eigene Infrastruktur zu keinem Zeitpunkt im Klartext. Eine Zero Data Retention Vereinbarung mit OpenAI stellt sicher, dass keine Daten für Modell Training verwendet werden.

Wie zuverlässig ist die Pseudonymisierung?

Die Pseudonymisierung basiert auf dem deutschen Sprachmodell de_core_news_lg von spaCy, einem Industriestandard für Named Entity Recognition. Die Erkennung von Personennamen liegt im Bereich von 85 bis 95 Prozent. Wir empfehlen die Funktion als Datenschutz Layer, nicht als juristische Garantie für vollständige Anonymisierung.

Wie unterscheidet sich auraVoice von ChatGPT Voice oder anderen Diktat Apps?

Drei strukturelle Unterschiede: Erstens läuft eine lokale Pseudonymisierung VOR dem Cloud LLM Aufruf, nicht erst danach. Zweitens werden mehrere spezialisierte Modelle eingesetzt statt eines Generalisten. Drittens ist auraVoice individuell anpassbar an Branche und Workflow.

Lässt sich das Personal Dictionary individuell anpassen?

Ja. Pro Kunde wird ein domänenspezifisches Vokabular hinterlegt, das die Erkennung von Fachbegriffen massiv verbessert. Beispiele: medizinische Wirkstoffe, juristische Fachbegriffe, steuerrechtliche Termini, branchenspezifische Eigennamen. Die Erstkonfiguration erfolgt im Onboarding.

Welche Modi gibt es und kann ich eigene Modi erstellen?

Aktuell stehen sechs vordefinierte Strukturierungsmodi zur Verfügung: Team Meeting, Kundengespräch, Strategie, 1on1, Briefing und Eigener Prompt. Über den Modus Eigener Prompt lassen sich beliebige weitere Strukturen definieren. Für wiederkehrende individuelle Anwendungsfälle kann ein zusätzlicher Standard Modus implementiert werden.

Auf welchen Geräten läuft auraVoice?

Als Progressive Web App auf iOS Safari, Android Chrome und allen modernen Desktop Browsern. Plus dedizierte Browser Extensions für Chrome und Safari, die Diktat Funktionalität direkt in beliebige Eingabefelder integrieren. Eine native iOS oder Android App ist nicht erforderlich.

Ist auraVoice DSGVO konform?

Die Backend Infrastruktur läuft auf europäischen Servern. Personennamen werden lokal pseudonymisiert. Cloud LLM Anbieter sehen ausschliesslich pseudonymisierte Daten. Die finale DSGVO Konformität für einen konkreten Anwendungsfall hängt von der individuellen Implementation und der eigenen Compliance Architektur ab. Details unter auranexus.ai/datenschutz.

Ist auraVoice als Self Service verfügbar?

Aktuell nicht. Wir implementieren das System individuell für jeden Kunden, abgestimmt auf dessen Branche, Vokabular und Workflows. Diese Phase erlaubt es uns, die Plattform präzise an Ihre Anforderungen anzupassen. Eine Self Service Variante ist in Vorbereitung.

@oliverrange

Oliver Range

Gründer auraNexus.ai · AI Manager (TÜV)

Gründer mehrerer Digitalunternehmen, darunter Die Medialysten (Exit an Linkfluence). Mit über 20 Jahren Erfahrung in digitaler Transformation entwickelt auraNexus.ai KI Anwendungen für Kommunikationsbranche, Gesundheitswesen, GaLaBau und Fertigung.

// read next

Finanzanalyse

CFOs und Kommunikationschefs lesen dieselben Zahlen unterschiedlich

auraHub

KI Plattform ohne Prompting, DSGVO konform

auraPress

Pressekonferenz Vorbereitung mit KI für IR Teams

Blog

Alle Beiträge zu KI Strategie und Praxistipps

Drei Modelle.Eine Reihenfolge.