KI-generierter Text hinterlässt messbare statistische Fingerabdrücke, die sich vom menschlichen Schreiben unterscheiden. Unser Tool berechnet 16 unabhängige Kennzahlen, gruppiert in fünf Familien:
- Wortschatz-Vielfalt (3 Kennzahlen):Lexikalische Vielfalt (MTLD) misst, wie viele Wörter du lesen kannst, bevor sich der Wortschatz wiederholt. Hapax Legomena erfasst den Anteil der Wörter, die nur einmal vorkommen. Yule’s K ist ein klassisches statistisches Maß für die Wortschatz-Wiederholung. KI-Texte wiederholen sich früher und nutzen weniger einzigartige Wörter.
- Satzrhythmus (4 Kennzahlen): Satzlängen-Gleichmäßigkeit (Variationskoeffizient), Satzlängen-Streuung (Standardabweichung), Burstiness (Wechsel zwischen einfachen und komplexen Passagen) und Satzanfang-Vielfalt (ob du Sätze immer wieder mit denselben Wörtern beginnst). KI hält Satzlängen und Satzanfänge unnatürlich konstant.
- Phrasen-Fingerabdrücke (2 Kennzahlen):KI-typische Phrasen prüft auf 35+ Ausdrücke, die LLMs überproportional häufig verwenden — „es ist wichtig zu beachten“, „facettenreich“, „vielschichtig“, „maßgeblich“ und ähnliches. Übergangswörter-Häufigkeit erkennt Satzanfänge wie „Darüber hinaus“, „Des Weiteren“ und „Folglich“, die KI zwei- bis dreimal häufiger nutzt als typische akademische Texte.
- Dokumentstruktur (3 Kennzahlen):Absatzlängen-Gleichmäßigkeit erkennt verdächtig gleichmäßige Absatzgrößen, Passivkonstruktionen die Übernutzung in akademischen Kontexten, und Satz-zu-Satz-Fluss misst, ob die Übergänge zu glatt sind — KI produziert gleichförmige Verbindungen, während Menschen variablere Anschlüsse haben.
- Statistische Fingerabdrücke (4 Kennzahlen): Der Zipf-Exponent vergleicht deine Wortfrequenz-Kurve mit der natürlichen Sprachnorm, Zeichen-Entropie misst Vorhersagbarkeit auf Buchstabenebene, Zeichensetzungs-Vielfalt zählt verschiedene Satzzeichenarten, und die Wortlängen-Variation erfasst die Streuung zwischen kurzen und langen Wörtern. Einzeln subtile Signale, in Kombination ein klarer Fingerabdruck.
Jede Kennzahl wird von 0–100 bewertet und gewichtet (am stärksten KI-Phrasen, Satzrhythmus und lexikalische Vielfalt) und ergibt einen Gesamt-KI-Wahrscheinlichkeitswert. Wir folgen der Methodik aus Desaire et al. 2023 und dem Tercon-2025-Survey. Dies ist eine heuristische Analyse — kein KI-Detektor ist zu 100% genau, aber die Aufschlüsselung pro Kennzahl zeigt dir genau, welche Muster jeden Score ausgelöst haben, sodass du gezielt überarbeiten kannst statt zu raten.
Wenn du das Ergebnis bereinigst, wenden wir dieselben Regeln umgekehrt an: KI-bevorzugte Phrasen werden gegen schlichtere Alternativen ausgetauscht und überstrapazierte Übergangswörter entfernt. Bei DOCX- und PDF-Uploads bleibt die Formatierung deines Originaldokuments erhalten — nur die markierten Wörter werden direkt im Dokument ersetzt — und die Auflistung „Vorgenommene Änderungen“ zeigt jede Ersetzung mit gelöschtem Text in Rot und neuem Text in Grün, damit du sie vor der Abgabe prüfen kannst.