DSA Scanner

Was legen Ihre Daten tatsächlich offen?

Der DSA Scanner ist der Einstieg (Wedge) für The Veil Core. Lassen Sie ihn auf Ihren echten Daten laufen und sehen Sie genau, welche personenbezogenen Daten Ihre KI-Pipelines preisgeben — Namen, Adressen, IBANs, Gesundheitsdaten, Quasi-Identifikatoren. Er ist der Gesprächsstarter, der das abgegrenzte Assessment für The Veil Core öffnet.

Die Sichtbarkeitslücke

Die meisten Organisationen wissen nicht, welche personenbezogenen Daten ihre KI-Systeme tatsächlich verarbeiten. Sie gehen davon aus, dass ihre Daten sauber sind, oder verlassen sich auf Regex-Muster, die kontextabhängige Identifikatoren übersehen. Die Kluft zwischen dem, was Sie für exponiert halten, und dem, was tatsächlich exponiert ist, erzeugt ein Compliance-Risiko, das Sie nicht quantifizieren können.

Ohne Transparenz darüber, was Ihre KI-Pipelines aufnehmen, können Sie weder Risiken bewerten, noch Compliance nachweisen oder Gegenmaßnahmen priorisieren. Sie brauchen einen Scan Ihrer echten Daten — keine theoretische Bewertung.

So funktioniert der Scanner

Schritt	Was passiert	Wo
1. Daten bereitstellen	Repräsentative Datensätze aus Ihren Systemen — CSV, JSON oder ServiceNow-Export. Die Daten verbleiben auf Ihrer Infrastruktur und werden niemals an externe Dienste übertragen.	Ihre Umgebung
2. Drei-Schichten-Erkennung	Der Scanner führt Known-Entity-Matching (Kölner Phonetik + Levenshtein), NER-Erkennung (Presidio mit spaCy DE/EN) und optional LLM PII Shield (feinabgestimmtes Qwen 2.5 7B) parallel aus.	Scanner-Engine
3. Expositionsbericht	Detaillierter Bericht mit jedem gefundenen personenbezogenen Datenelement, Konfidenzwerten, feldbasierter Risikobewertung und Empfehlungen zur Behebung.	HTML-Bericht

Drei Schichten der Erkennung

Schicht 1 — Known-Entity-Matching

Kölner Phonetik und Levenshtein-Distanz-Abgleich gegen bekannte Identitäten. Erkennt Namensvariationen, Schreibfehler und phonetische Äquivalente, die regelbasierte Systeme übersehen.

Schicht 2 — NER-Erkennung

Presidio mit spaCy DE/EN-Modellen und benutzerdefinierten deutschen Erkennern. Erkennt IBANs, Steuer-IDs, Krankenversicherungsnummern, Adressen und Standard-PII-Kategorien.

Schicht 3 — LLM PII Shield

Feinabgestimmtes Qwen 2.5 7B auf dedizierter Ollama-Instanz. Erkennt kontextabhängige personenbezogene Daten, die regelbasierte Systeme übersehen. Läuft parallel zu Schicht 2 für Ensemble-Erkennung.

Schicht 1–2 laufen im initialen Scan; Schicht 3 (LLM PII Shield) läuft im Rahmen des vollständigen Assessments für The Veil Core. Der DSA Scanner ist kein Self-Service-SaaS — jeder Scan wird vorher per E-Mail abgegrenzt.

Bewertung buchen