Einfache Datenglättung

Daten, welche aus Überwachungssensoren stammen oder von Hand eingegeben wurden, weisen oftmals Abweichungen auf. Die Abweichungen sollen in der Auswertung ausgebügelt werden, da sie Grafiken und Berechnungen unschön beeinflussen.

Der bekannteste Weg, mit Ausreißern fertig zu werden ist, den Durchschnitt (arithmetisches Mittel) zu bilden. Solange keine Werte deutlich aus der Reihe schlagen, bekommt man so einen brauchbaren Mittelwert.

Wenn wir uns die Datenreihe [4;5;3;3;5;3;3;3;1;3;4;2;3;1] anschauen, streuen die Zahlen leicht um den Wert 3. Ein (gerundeter) Durchschnitt bringt hier eine brauchbare Näherung.

Avg([4;5;3;3;5;3;3;3;1;3;4;2;3;1])  →  3,07 oder gerundet 3

Im Umfeld der Signaltheorie sind aber noch andere Funktionen bekannt, die zusammen mit dem Durchschnitt unter dem Begriff Mittelwerte zusammengefasst werden. Insbesondere bei großen Ausreißern liefern diese bessere Ergebnisse.

Dazu gehören die Funktionen Median und Modus. Beide sind in gängigen ETL- sowie Reportingtools verfügbar und simpel in der Anwendung.

Der Median sortiert eine Datenreihe aufsteigend und gibt den Wert aus der Mitte der Sortierung zurück.

Median([4;5;3;3;5;3;3;3;1;3;4;2;3;1]) →  Mittleres Element aus [1;1;2;3;3;3;3;3;3;4;4;5;5] →  3

Die Funktion des Modus zählt die einzelnen Vorkommen eines Elementes und gibt das häufigste zurück.

Modus([4;5;3;3;5;3;3;3;1;3;4;2;3;1]) →  Vorkommen der Elemente werden gezählt

1 (2x); 2(1x); 3(6x); 4(2x); 5(2x) →  3

 

2015-10-23 Christph Niehaus - BIX (c) www.photo67.de-012+_HQS-4
Christoph Niehaus
Senior Consultant BI