Warum wir bewerten, wie wir bewerten – Unser Bewertungsmaßstab
Nachdem Phillip in den letzten Tagen euch unseren Bewertungsmaßstab ein wenig näher gebracht hat, komme ich nun seiner Aufforderung nach, zu unseren Einteilungen und Namensgebungen Stellung zu nehmen. Ich vertrete in Wort und Sprache auch Nikola.
Besten Dank
Zunächst jedoch erst mal einen großen Dank von mir an Phillip für seine Mühe, denn aller Anfang ist schwer.
Unser Bewertungsmaßstab
Aber nun meine Worte zu dem wie und warum. Für all jene, die Phillips Text nicht mehr vollständig im Kopf haben oder ihn gar nicht gelesen haben, fasse ich noch einmal in Kürze sein Bedenken bezüglich unseres Bewertungsmaßstabs zusammen. Seine Bedenken betreffen zum einen unsere Unterteilung sowie die dafür gewählten Farben und Begrifflichkeiten. Unerwähnt sollte jedoch nicht bleiben, dass er mit daran gearbeitet hat.
Das Grundproblem von Bewertungsmaßstäben
Denn jede Skala hat ihre Vor -und Nachteile. Vollkommen egal, ob wir uns das generell etablierte 5 Sterne System anschauen oder zahlenbasierte Skalen wie z.B. von 0 – 100 oder 1 – 10. Während die Einteilung in 5 Sterne oft zu ungenau ist, kann eine Einteilung von 0 – 100 manchmal zu groß und kleinteilig sein. Hier zwei Beispiele:
- Bei einer 5 Sterne Skala kommt es, wenn man einheitlich und im Kontext der anderen Produkte bewerten möchte, zwangsläufig dazu, dass früher oder später 70 % aller bewerteten Whiskys bei 3 Sternen landen werden. Das ist auch vollkommen logisch, denn in einem solchen System bekommen nur die absolut herausragenden Spitzen Whiskys die vollen 5 Sterne (Glendronach 21). 4 Sterne kann es in einem solchen Systemen nur für Whiskys geben, die aus der breiten Masse in puncto Qualität heraus stechen, jedoch nicht vollends überzeugen. Somit landen alle sehr guten bis guten Whiskys bei 3 Sternen. Daraus folgt dann das Dilemma: Das man teilweise ordentliche Whiskys die vielleicht nur etwas zu leicht oder eindimensional sind, mit 2 Sternen abgestraft werden müssen. Von den ganzen Einsteiger bis Discounter Whiskys gar nicht erst zu reden. Die würden alle 1 Stern bekommen, obwohl es dort auch teils gravierende Unterschiede gibt – Glenfiddich 12, Johnny Walker Red, Fujikai 10
- Bei einer metrischen Skala haben wir das Problem der kleinen Stufen. Man kommt zwangsläufig irgendwann an den Punkt, an dem man sich als Leser fragt: „Was unterscheidet eine 76 von einer 77 oder eine 81 von einer 82“: Diese Steps geben uns die Möglichkeit sehr differenziert zu bewerten. Jedoch macht es das für Außenstehende auch weniger greifbar.
Die Lösung unseres Bewertungsdilemmas
Genau vor dem gerade skizzierten Grundproblem standen wir zu Beginn unseres Blogs. Wir möchten jeden Whisky hier möglichst objektiv und fair bewerten und unseren Lesern einen guten Überblick über die Klaviatur der Whiskys am Markt verschaffen.
Angesichts dessen war auch relativ schnell klar, dass dein 5-Star-Rating-System bei uns keine Zukunft haben wird. Es ist für unsere Art Whisky im Kontext der Vielfalt am Markt zu bewerten viel zu undifferenziert. Ein solches Bewertungssystem funktioniert nur, wenn man jeden Whisky isoliert betrachtet für sich bewerten würde, wie eben bei Amazon. Wenn jemand bei Amazon ein Produkt kauft und bewertet, bewertet er zumeist nur das jeweilige Produkt, nicht jedoch im großen Kontext zu den Vergleichs -und Konkurrenzprodukten.
Entsprechend erachten wir den Mehrwert einer solchen Bewertung für euch relativ gering. Denn auf diese Weise würde etwa der Auchentoshan 12 (Crew Durchschnitt 67 Punkte) auf 3 Sterne kommen, ebenso wie der Glenfiddich Fire & Cane (Crew Durchschnitt 78 Punkte). Zwischen den beiden liegen jedoch bei uns aktuell 2 ganze Bewertungsstufen. Wäre es also fair, beiden Whiskys 3 Sterne zu geben? Wohl kaum …
Allein aus dieser Überlegung heraus lag die Lösung für uns bei der Wahl einer metrischen Skaleneinheit. Diese bietet uns die Möglichkeit den unfassbar breiten Markt an extrem unterschiedlichen Whiskys in ein Bewertungssystem zu „pressen“. Pressen ist hier auch das Stichwort. Denn wie erwähnt, ist dieses System auch nicht komplett fehlerfrei und es gibt immer mal wieder Ausreißer, die multifaktoriell sind (Subjektivität, Tagesform des Tasters, Raumtemperatur). Jedoch steht unsere Bewertung nie völlig allein und losgelöst in den Tastingnotes. Eine von uns vergebene Note ist immer im Kontext zu den restlichen Tastingnotes zu lesen, also dem Geschmacks -und Aroma-Profil, dem Abgang und so weiter.
Ein System für alle oder nach Klassen
Kommen wir zu einem weiteren Grundproblem von Bewertungen: die Diversität. Was ist damit gemeint? Um das kurz zu erläutern, machen wir einen kleinen Ausflug in die Automobilwelt:
Es existieren Kleinwagen, Kombis, SUVs, Limousinen und Sportwagen, manche von ihnen sind günstig, manche kosten mehrere 100.000 Euro – sie alles haben etwas gemein, sie sind Autos. Ähnlich ist es auch beim Whisky: Es gibt nicht-rauchige/rauchige Whiskys, NAS-Whiskys, manche werden nachgereift usw.
Damit geht natürlich die Frage einher, kann man oder sollte man all diese Whiskys mit nur einem Bewertungsmaßstab versuchen zu bewerten oder sollte man Klassen bilden und innerhalb dieser bewerten?
Wir haben uns offensichtlich dafür entschieden, alle Whiskys mit nur einem Bewertungsmaßstab zu bewerten. Doch warum haben wir dies gemacht? Ganz vereinfacht gesagt, zur besseren Vergleichbarkeit. Ich finde es persönlich recht schwierig und wenig transparent, wenn auf einmal parallele Bewertungsmaßstäbe existieren. In Klassen zu bewerten, mag vielleicht für die ein oder andere Abfüllung fairer erscheinen. Man könnte so die rauchigen Whiskys für sich betrachten oder das Preis-Leistungs-Level mit in die Bewertung einfließen lassen. Es wäre auch denkbar, wie bei unseren „Weihnachts-Geschenk-Tipps“ die Whiskys in einzelne Preisklassen einzuordnen und dann nur innerhalb dieser Preis-Kategorien zu bewerten. Das würde besonders die Einsteiger Whiskys deutlich besser dastehen lassen.
Dann würde die Übersichtlichkeit leiden, weil eine 80 auf einmal nicht immer auch eine 80 ist, sondern von den gewählten Kategorien abhängt. Daraus abgeleitet würde dies auch eine inflationäre Flut an Awards nach sich ziehen.
Das heißt nicht, dass es automatisch besser ist, alle Whiskys mit nur einem Bewertungsmaßstab abzubilden. Ein zB günstiger Einsteiger, der ganz ordentlich ist, aber natürlich nicht im Ansatz an die Top-Whiskys heran reichen kann, wir dann in einem gesamtheitlichen Bewertungsmaßstab verwässert.
Die Einteilung unseres Bewertungsmaßstabs
Kommen wir nun zu unserer Unterteilung und den daraus resultierenden Noten. Dieses System mag zu Beginn vielleicht etwas willkürlich wirken (im Prinzip ist es das auch).
„Exzellent“ macht 10 % der Skala aus, „sehr gut“ zB aber nur 5 %, „akzeptabel“ bis „schlecht“ dann wieder jeweils 10 % und am Ende kommen 30 % „unterirdisch“
Aber es steckt eine gewisse Methodik dahinter, die wir zusammen besprochen haben. Stellt euch am besten eine Kurve mit linearem und exponentiellem Charakter vor. Ja ich weiß, ich möchte es nicht verkomplizieren, aber hier drösel ich es im Folgenden ein wenig auf:
Schauen wir uns also mal die Kategorie „Unterirdisch“ an. Diese fällt in der Tat mit 30 % am größten aus. Allerdings ist die Bandbreite in diesem Bereich auch besonders groß, man denke nur an die unzähligen Discounter Whiskys und Blends bis 20 Euro. Zugegeben, bisher hatten wir kaum Whiskys dieser Kategorie im Blog. Das hat aber einen Grund, all unsere Whiskys im Blog sind von uns selbst gekauft. Entsprechend kaufen wir natürlich nicht wahllos Whiskys bzw. bewusst schlechte Whiskys, nur um dann „schlechte“ Noten vergeben zu können.
Anschließend geht es in 10er-Schritten linear bis „Solide“ weiter. Die Betonung liegt hier auf linear. Im Gegensatz zu den aus unserer Sicht „Unterirdischen“ Whiskys ist das Feld hier sehr dicht zusammen, sprich hier bedarf es wenig Qualitätszuwachs (zur Einfachheit so genannt), um größere Punktesprünge zu ermöglichen.
Danach wechselt die Kurve und bekommt einen exponentiellen Charakter, einfach um auch der steigenden Qualität Rechnung zu tragen. Deshalb werden die Steps zwischen den Bereichen kleiner, jedoch steigen die Anforderung mit jedem weiteren Punkt in der Bewertungsskala.
Aus genau diesem Grund ist auch unsere Top-Kategorie wieder mit 10 Steps recht groß gehalten. Denn oben heraus wird es besonders schwierig für einen Whisky zu Punkten. So entspricht ein Step von 93 zu 94 Punten bei mir etwa einen Step von 1 zu 30 Punkten (ich möchte nur darstellen, dass die Hürde zu einer Punktsteigerung größer wird). Die Luft wird also immer dünner.
Kurzer Exkurs zum Gault Millau
Beim Gault Millau werden Restaurants mit einer maximal Punktzahl von 20 Punkten bewertet. Allerdings ist die höhst mögliche Punktzahl, die vergeben wird 19 Punkte. Die eigentliche Höchstnote 20 wird im nicht vergeben. Die Begründung dafür lautet: nur Gott, aber kein Mensch kann in absoluter Vollkommenheit kochen. So ähnlich halte ich es bei mir auch mit den 100 Punkten. 100 Punkte bedeuten für mich, absolute Perfektion und die gibt es bei uns Menschen nicht. Dennoch möchte ich nicht ausschließen, dass mit steigender Erfahrung (ich habe so circa 400 verschiedene Whiskys probiert) ein gottähnlicher Whisky kreiert werden kann ;-).
Die Namen
Ein weiterer Kritikpunkt von Phillip war die Namensgebung der Kategorien. Wir haben uns damit alle drei schwer getan. Vor allem im mittleren Punktebereich: Mäßig, Akzeptabel, Solide und Ordentlich. Darüber kann man streiten, welches Wort einen höheren Wert ausdrückt. Insofern hat Phillip da durchaus einen validen Punkt getroffen, wenn er die Frage in den Raum wirft: „Ist „solide“ zwangsweise schlechter als „ordentlich“?“ . Aus meiner persönlichen Sicht ist dem so.
Allerdings sollte man die Namen der Kategorien nicht allzu dogmatisch sehen. Bei der Namensgebung handelt es sich um eine grobe Orientierungshilfe innerhalb unseres Bewertungsmaßstabs. Entschiedener sind letztendlich die von uns vergebenen Punkte in Kombination mit den Tastingnotes. Eine 74 Punkte Wertung ist eine 74 Punktewertung unabhängig davon, ob die Kategorie dazu solide oder Ordentlich heißt.
Die Farben
Ähnlich verhält es sich bei den von uns verwendeten Farben. Diese folgen auch einer recht simplen Logik. Wir beginnen bei 0 Punkte mit „Rot“. Von Rot wechseln wir dann zu Orange über Gelb bis hin zu einem satten Grün für Ordentlich. Das entsprecht in etwa dem klassischen Rot zu grün Verlauf. Man kennt dieses beispielsweise von den Energie-Effizienz-Klassen bei Geräten.
Für die letzten 3 Kategorien, unsere Top-Kategorien, wechseln wir dann das Farbschema: auf Silber, Gold und Platin. Das stellt gewissermaßen einen kleinen farblichen Bruch dar. Jedoch heben sich dadurch die Top-Whiskys besser von der Masse ab. Und so ganz nebenbei klingt „Silber Award“ auch deutlich besser als „hellgrün Award“. Aber klar kann man jetzt diskutieren, ob man wie bei Olympia, in Bronze, Silber, Gold die Top-Whiskys prämieren sollte. Aber letztlich sind dies auch nur Edelmetalle, die in ihrer Wertigkeit sortiert sind. Daher haben wir uns für Silber, Gold und Platin entschieden.
Fazit
Ich hoffe, dass ich etwas Klarheit in unseren Bewertungsmaßstab bringen und zeigen konnte, dass dem ganzen sehr wohl eine gewisse Logik innewohnt.
Klar ist unser Bewertungsmaßstab nicht perfekt und willkürlich kreiert. Aber ich denke, einen perfekten Bewertungsmaßstab wird es nicht geben. Es lassen sich immer Dinge dafür oder dagegen finden.
Darum hoffe ich, dass der Einblick in unseren Entwicklungsprozess und Überlegungen interessant dargestellt wurde. Es ist immer schwer, ein Bewertungssystem zu entwickeln und dieser Prozess ist allzu oft von Kompromissen gepflastert. Aber wichtig ist, dass wir eine Möglichkeit gefunden haben all unsere Whiskys untereinander transparent zu vergleichen und euch Anhaltspunkte zu geben, wie „was die Qualität eines Whiskys objektiv ausmacht.
In diesem Sinne hoffen wir Euch im Jungle der Whiskys am Markt eine bessere Orientierung geben zu können.
Euer Chris und Nikola von der TheWhiskyCrew.