Wie Metacritic wirklich wertet

Wie Metacritic wirklich wertet User-Artikel

onli pariert

onli / 22. Dezember 2015 - 13:53 — vor 8 Jahren aktualisiert

Teaser

Im seiner letzten Kolumne lästert Langer gegen den vermeintlich aussagelosen Metascore, der Aggregatswertung von Metacritic durch professionelle Tester und Nutzer. Doch stimmen seine Daten überhaupt? Das lässt sich prüfen.
Dieser Inhalt wäre ohne die Premium-User nicht finanzierbar. Doch wir brauchen dringend mehr Unterstützer: Hilf auch du mit!
Um einen Artikel auf seinen Wahrheitsgehalt hin überprüfen zu können muss man ihn verstanden haben. Prüfen wir also zuerst, ob wir ein gemeinsames Verständnis von Langers Kolumne haben. Meiner Meinung nach mag Jörg Langer Metacritic nicht besonders. Die Zusammenfassung der Wertungen in eine Durchschnittswertung findet er verwerflich, das Gebaren der Nutzer unmöglich und ihre Wertungen daneben. Ich sehe drei Hauptaussagen:

Erstens (H1):
 "[Der Userscore] liegt in 100% der von mir geprüften Fälle unter dem Reviewer-Score, was je nach Lesart dafür stehen könnte, dass User kritischer sind als Spieletester."
Zweitens (H2):
"Wenn ich meinen Beruf und die letzten grob 20 Jahre meines Schaffens ernst nehme, kann ich prinzipiell nichts davon halten, dass 100 Stunden Arbeit von mir oder meinen Kollegen nichts weiter wert sein sollen, als in einem ominösen Durchschnitt aufzugehen."
Drittens (H3):
"Die PC-User unter der Metacritic-Horde bewerten überproportional häufig "ihre" Fassungen noch schlechter, als ihre Brüder und Schwestern schon die Konsolenfassungen schlechter bewertet haben."
Das sind also die Aussagen, die geprüft werden müssen.

Im Folgenden werden Wertungen für Spiele im Text erwähnt und nicht versteckt. Es wäre angesichts des Themas anders nicht möglich. Wer keine Wertungen sehen will sollte hier abbrechen.
 

1. Der Userscore liegt zumeist unter dem Reviewerscore


H1 lässt sich direkt an den existierenden Wertungen messen. 1200 PC-Spiele konnte ich per Kimono von Metacritic zur Auswertung in einer lokalen Datenbank speichern. Es interessiert, wie sehr die Aussage wahr ist: Wie oft liegt der Userscore unter der Wertung der Profis, und gilt das eventuell nur für manche Spiele?

Für die Top 100 ist die Aussage zu 95% wahr. Fast alle der bestbewerteten Spiele aller Zeiten werden von den Nutzern schlechter gesehen. Die Ausnahmen sind dann auch wirklich Ausnahmespiele: Deus Ex, Planescape: Torment und Portal. Die beiden anderen,Team Fortress 2 und Half-Life 2: Episode Two, profitieren statt eigener überragenden Qualitäten wohl eher von der ungebrochenen Beliebtheit Valves.


Über die restlichen Wertungen hinweg wird die Aussage immer weniger wahr. Bei allen Wertungen zusammen sind es nur 727 und damit 60%, bei denen die professionelle Wertung über den Nutzerkommentaren liegt. Entsprechend interessant ist das Verhältnis ohne die Top 300, womit die Metascore-Wertungen bei 85 beginnen: bei diesen 900 verbliebenen Spielen sind es nur noch 54% (489), was weit weg ist von einem klaren zumeist. Insgesamt liegt der Median der professionellen Wertungen bei 82, der Median der Userwertungen leicht darunter bei 80.

Für H1 gilt also: Es ist für diesen Datensatz gerade so wahr, aber es gilt sehr viel mehr für die Topspiele als für die nur noch als gut bewerteten. Wollte man das interpretieren könnte man sagen, dass Nutzer mehr als professionelle Tester auch bei hervorragenden Spielen die negativen Seiten sehen, ohne dies aber bei weniger überragenden Spielen zu übertreiben.
 
Jörg Langer Chefredakteur - P - 469388 - 22. Dezember 2015 - 13:54 #

Es ehrt mich natürlich, dass meine Kolumne zu diesem User-Artikel Anlass gegeben hat. Ich möchte einerseits die reingesteckte Mühe loben, andererseits Systematik und Ergebnis der "Entgegnung" kommentieren.

Selbstverständlich stimmt meine "1. Aussage" vollumfänglich und ist, im Duktus des User-Arikels, "wahr". Sie ist ja auch korrekt zitiert; wer sie noch mal liest, wird verstehen, was ich meine. Man könnte nur die Folgerung, die ich daraus treffe, angreifen, nämlich dass ich mein kleines Subset von ca. drei Dutzend Spielen einfach generell auf Metacritik transponiere.

Allerdings ignorierte auch diese Lesart die Relevanz der Spiele. Mag ja sein, dass bei Einberechnung wirklich aller Spiele "nur" 60 Prozent der User-Wertungen unter der professionellen Wertung liegen. Doch ich würde sehr viel darauf wetten, dass bei den anderen 40 Prozent überproportional viele "kleine" Spiele vertreten sind, Nischentitel, Liebhabertitel. Diese werden von viel weniger Leuten bewertet, aber die, die sie überhaupt spielen und bewerten, dürften eher ein Fan des Subgenres / der Serie sein und zu einem gnädigeren Urteil kommen als die weitaus größere Zahl von Usern bei den relevanteren Spielen. Mit anderen Worten: Trotz massiv unterschiedlicher Relevanz der getesteten Spiele (in Bezug auf erreichte Käufer/Spieler/Metacritik-Wertungs-Leser sowie der dahinter stehenden Zahl an Bewertern) wirft der Artikel alles zusammen. Die tatsächliche Wirkung der 40% der scheinbar meiner Kolumne widersprechenden User-Lieblinge ist aber vermutlich vernachlässigbar.

Da ich das mitdenke, empfinde ich den Artikel als eine fast ausnahmslose Bestätigung der in meiner Kolumne getroffenen Aussagen – inklusive der Meta-Aussage, dass Durchschnitte nichts bringen :-)

burdy (unregistriert) 22. Dezember 2015 - 15:02 #

Das User-Wertungen nichts taugen steht außer Frage. Aber warum soll das auch für Wertungs-Durchschnitte allgemein gelten? Ein Durchschnitt mit verünftig gewichteten Einzelwertungen ist aussagekräftiger als eine Einzelmeinung. Wenn 10 Tests sagen, das Spiel ist gut, dann sagt das mehr aus, als wenn ein Test sagt, das Spiel ist gut.

Sp00kyFox (unregistriert) 22. Dezember 2015 - 15:53 #

ich denke auch nicht, dass user-wertungen im allgemeinen stuss wären. auf steam zB dürfte jeder der dort öfter mal unterwegs sind die eine oder andere sehr ausführliche und gut gemachte kritik gelesen haben, wie auch hier auf GG.

burdy (unregistriert) 22. Dezember 2015 - 16:07 #

Es ist nicht auszuschließen, das auch auch vernünftige Userwertungen gibt. Die gehen aber unter zwischen den Leuten, die ihre Treiber nicht installieren können, denen die Farbe der Verpackung nicht gefällt oder die es nicht leiden können, dass das Spiel einen DLC hat.

Noodles 26 Spiele-Kenner - P - 75314 - 22. Dezember 2015 - 17:02 #

Wieso gehen die unter? Steam oder Amazon haben ein System, dass man hilfreiche Bewertungen positiv bewerten kann und die stehen dann ganz oben. Und das funktioniert auch. Wenn ich nach User-Rezensionen schauen, sind die Ein-Satz-Alles-Scheiße-Wertungen immer ziemlich weit unten.

RoT 21 AAA-Gamer - P - 26097 - 23. Dezember 2015 - 5:36 #

auf den ersten blick auf die sterne, bzw bei steam auch die einschätzung (äußerst positiv, sehr positiv, größtenteil positiv, ausgeglichen etc.) haben die einzeiler natürlich trotzdem einfluss...

Noodles 26 Spiele-Kenner - P - 75314 - 23. Dezember 2015 - 15:01 #

Ja das schon, aber wenn man sich nur von dem Blick auf die Sterne beeinflussen lässt, ist man selber Schuld.

Cohen 16 Übertalent - 5024 - 22. Dezember 2015 - 20:05 #

Das große Problem bei den User-Wertungen: es können auch Leute Bewertungen abgeben, die das Spiel gar nicht gekauft oder zumindest gespielt haben.

Playstation-Fans geben schlechte Bewertungen für exklusive Xbox-, PC- oder Nintendo-Spiele und für die "gegnerischen" Multi-Plattform-Versionen, Xbox-Fans geben schlechte Bewertungen für exklusive PS-, PC- oder Nintendo-Spiele und für die "gegnerischen" Multi-Plattform-Versionen, Nintendo-Fans bewerten alles außer Nintendo-1st-Party-Spiele schlecht, EA-Gegner bewerten jedes EA-Spiel schlecht, populäre Vertreter "verhasster" Genres werden schlecht bewertet, usw. usf.

UserScores, die nur in Kombination mit dem Spielfortschritt abgegeben werden können (z.B. Storymodus/Kampagne mindestens 50% durchgespielt, mindestens 20% der Achievements/Trophies/Stempel erreicht, Spielzeit mindestens 10 Stunden oder ähnliches), wären interessant.

Sp00kyFox (unregistriert) 22. Dezember 2015 - 22:05 #

klar, solche user mögen dann im zweifelsfall solch einen durchschnittscore pushen bzw vermiesen, aber deren bewertung an sich sieht man das dann eben auch an. aber daher lese ich eben auch konkret einige user-wertungen bei spielen die mich interessieren und da kann man doch mit erfahrun relativ schnell merken, ob da jemand stuss von sich gibt oder das spiel ernsthaft betrachtet. und da wollte ich mal klar erwidern, dass es sehr wohl vernünftige gibt.

falls die menge dieser shit/fanboy-votes sich in maßen hält, kann übrigens auch der median als alternative zum durchschnitt sinnvoll sein, da dieser im gegensatz zum letzteren gegenüber ausreißern resistent ist. allerdings wird dieser wert weder gerne von solchen ranking-seiten verwendet noch in der politik. ich sag nur lohnentwicklung um mal einen seitenhieb in diese richtung zu machen ^^

burdy (unregistriert) 22. Dezember 2015 - 23:12 #

Der Median wird schon verwendet, nur verstehen ihn viele Journalisten nicht. Dann kommen so tolle Argumente, dass der mittlere Lohn ja massiv steigen würde, wenn ganz viele Millionäre zuziehen. Weil die halt den Unterschied zwischen mittlerem Einkommen und Mittelwert des Einkommens nicht kapieren.

Noodles 26 Spiele-Kenner - P - 75314 - 22. Dezember 2015 - 22:58 #

Bei Steam zumindest kann man nur Bewertungen abgeben, wenn man das Spiel besitzt. Außerdem wird die Spielzeit des Users angezeigt. Und falls du dann noch genau wissen willst, wie weit er gespielt hast, kannst du sein Profil anklicken und schauen, welche Achievements er hat. ;)

Mazrim_Taim 16 Übertalent - 4088 - 23. Dezember 2015 - 11:55 #

"Das User-Wertungen nichts taugen steht außer Frage."
Interessant.
Ist selber denken schon wieder out?

CBR 21 AAA-Gamer - P - 26590 - 23. Dezember 2015 - 20:18 #

Ein großes Problem liegt darin, dass der Profi-Metacritic Score international mit (Schwerpunkt USA?) erhoben wird. Die Geschmäcker sind aber national und international deutlich unterschiedlich (vgl. Gothic, Anstoss 3).

Korrektes Fazit ist doch, dass ein gut geschriebener Test mehr Aussage hat als eine Note, die wie auch immer ausfällt. Dann kann jeder selbst parametrisieren, wie er die einzelnen Punkte für sich selbst übertragen kann.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 14:25 #

> Man könnte nur die Folgerung, die ich daraus treffe, angreifen, nämlich dass ich mein kleines Subset von ca. drei Dutzend Spielen einfach generell auf Metacritik transponiere.

Klar, das ist was ich tun wollte. Die zitierte Aussage selbst ist natürlich nicht angreifbar.

> Doch ich würde sehr viel darauf wetten, dass bei den anderen 40 Prozent überproportional viele "kleine" Spiele vertreten sind, Nischentitel, Liebhabertitel.

Oder ältere Spiele vielleicht. Möglich, überproportional zumindest ist wahrscheinlich. Bräuchte man eine Idee, da sauber zu kategorisieren (Verkaufszahlen? + Genre?), dann könnte man es prüfen.

RobGod 15 Kenner - 2820 - 22. Dezember 2015 - 14:00 #

Wow!

Klasse Artikel! Danke dafür :)
Es ist sehr schön, eine Gegenmeinung zum LL zu lesen und ebenfalls sehr toll, dass diese hier veröffentlicht wurde. :)

Tr1nity 28 Party-Gamer - P - 110368 - 22. Dezember 2015 - 14:38 #

Warum auch nicht? Auch wenn gern behauptet wird, GG liese keine Kritik oder andere Meinungen zu. Kommt halt immer drauf an, auf welche Art man es macht.

RobGod 15 Kenner - 2820 - 22. Dezember 2015 - 14:42 #

Eine Gegenmeinung zu einem Langer Lästert direkt als Top-News?
Wie häufig gabs das bisher?

Tr1nity 28 Party-Gamer - P - 110368 - 22. Dezember 2015 - 14:44 #

Wie oft machen sich User die Mühe überhaupt solch einen Artikel zu schreiben? Und normalerweise wird eigentlich jeder User-Artikel Top-News, so selten wie die sind.

RobGod 15 Kenner - 2820 - 22. Dezember 2015 - 14:44 #

Also gibst du mir Recht ;)
Das hat schon Seltenheitswert. Deswegen war ich so positiv überrascht.

Tr1nity 28 Party-Gamer - P - 110368 - 22. Dezember 2015 - 14:47 #

Nein. Ich frage mich nur, warum du das hier so in Frage stellst? Auch Kritik und andere Meinungen werden ganz normal in den Kommentaren akzeptiert. Wie gesagt, kommt halt auf die Art und Weise an.

RobGod 15 Kenner - 2820 - 22. Dezember 2015 - 14:50 #

Ich stell das doch nicht in Frage! Es ist das erste Mal, dass sowas hier gemacht wurde und ich hab mich naiverweise gefreut.

Deinen Subtext, den ich sehr wohl wahrgenommen habe, darfst du dir im übrigen gerne sparen.

Tr1nity 28 Party-Gamer - P - 110368 - 22. Dezember 2015 - 14:53 #

Hä? Was soll jetzt dieser persönliche Angriff?

RobGod 15 Kenner - 2820 - 22. Dezember 2015 - 14:56 #

Du hast meine Kommentare ja bereits als "Rotze" bezeichnet und jetzt hier zwei Mal darauf hingewiesen, dass es auf "die Art und Weise" ankommt.

Wenn du mir nicht durch die Blume zu verstehen geben wolltest, dass ich mich (anscheinend) zivilisierter ausdrücken solle, nehme ich das natürlich wieder zurück. Dann tuts mir Leid.

ganga 20 Gold-Gamer - 22830 - 22. Dezember 2015 - 15:11 #

Bitte weitere Diskussionen dazu privat per PN führen. Ich kann an RobGods Kommentar oben nichts angreifendes rauslesen und verstehe Tr1nitys Kommentar so dass sie sich allgemein auf den Tonfall bezieht.

Der Marian 21 AAA-Gamer - P - 29632 - 22. Dezember 2015 - 14:54 #

Gab es bei Alien Isolation sogar schon mal. Nicht ganz so direkt:
http://www.gamersglobal.de/user-artikel/alien-isolation

RobGod 15 Kenner - 2820 - 22. Dezember 2015 - 14:57 #

cool! Danke für den Link :)

CptnKewl 21 AAA-Gamer - 26647 - 22. Dezember 2015 - 19:20 #

Ich denke das gab es deßhalb so selten, weil eben keine fundierte Argumentation zurück kam sondern nur so etwas wie: Langer spinnt, hat keine Ahnung etc. Sofern hier aber fundiert und sachlich diskutiert wird gibts kein Problem.

ganga 20 Gold-Gamer - 22830 - 22. Dezember 2015 - 14:08 #

Interessante Gegenmeinung bzw Ergänzung. Ich finde es doch sehr ausschlaggebend dass H1 für die Top 100 durchaus gilt. Denn das sind ja die Spiele die am meisten diskutiert werden. Hier gehen die Meinungen mehr auseinander und hier kommen auch die extremen Wertungen mehr zum Tragen.

Daniel001 11 Forenversteher - 823 - 22. Dezember 2015 - 14:11 #

Toller Artikel !
Hab ich mit Begeisterung gelesen.

Midzoke (unregistriert) 22. Dezember 2015 - 14:13 #

Sehr guter Artikel, der nicht einfach dem allgemeinen Bauchgefühl folgt, sondern mit analytischen Ergebnissen die Argumentation untermauert. Sieht man leider viel zu selten.

Claus 31 Gamer-Veteran - - 421619 - 22. Dezember 2015 - 14:22 #

Wenn wir dieses Niveau hier halten könnten, das wäre wirklich fantastisch:
Kolummnen und Meinsungstexte, gefolgt von Artikeln wie diesen hier.

Ganz toller Beitrag, onli!

euph 30 Pro-Gamer - P - 130119 - 22. Dezember 2015 - 14:29 #

Sehr interessant - Danke dafür.

firstdeathmaker 18 Doppel-Voter - 9333 - 22. Dezember 2015 - 14:30 #

Vielen Dank für die Mühe. Meine Interpretation zu H1 ist die, dass die Top Spiele, wenn sie verrissen werden, vor allem auch von Mainstream nicht so viel Spielern bewertet werden und dann oft eben mit extremen Bewertungen, die dem Titel nicht wirklich gerecht werden. Bei Nischentiteln greift dann die Liebhaber Interpretation von Jörg.

Slaytanic 25 Platin-Gamer - - 62062 - 22. Dezember 2015 - 14:35 #

Schönen Dank für deinen Artikel, hat mir gut gefallen.

Warwick (unregistriert) 22. Dezember 2015 - 15:00 #

Schöner Artikel, dafür auf jeden Fall Kudos. Trotzdem hätte ich es interessanter gefunden, der Aussage des Autors "Durchschnittswertungen haben keine Aussagekraft" zu widersprechen bzw diese zu hinterfragen. Das ist meiner Meinung nach nämlich die gewagteste Aussage der Kolumne gewesen und auch die Diskutierwürdigste.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 13:53 #

H2 geht ja ein bisschen in die Richtung. Aber ja: Das könnte man auch gut mit einem einzelnen Spie oder einigen wenigen, zu denen man eine eigene Meinung und viele Wertungen hat, wahrscheinlich relativ gut diskutieren.

Punisher 22 Motivator - P - 32223 - 22. Dezember 2015 - 15:01 #

Super Artikel... das einzige wo ich nicht so glücklich mit bin ist die Datenerhebung. H1 an 1200 PC-Spielen fest zu machen halte ich für mutig, das dürfte ein kleiner Prozentsatz der Spiele sein, die Metacritic überhaupt listet. Ebenso fehlt mir eine Information, wie diese 1200 Spiele ausgewählt wurden - für eine statistisch valide Datenbasis müsste sich das ja EIGENTLICH repräsentativ über Genres / Publisher vs. Indie / Alter des Titels etc. verteilen. Trotzdem war es natürlich interessant, hier mal eine Auswertung zu sehen.

Bei H3 schreibst du ja selbst, dass die Datenbasis schlecht ist - du vergleichst 3 Spiele. Da würde ich da Datenbasis nicht schlecht, sondern unterirdisch bis nicht vorhanden nennen.

Aber trotz dieser Kritik - großes Lob, eine super Idee und im Rahmen der Möglichkeiten - finde ich - auch sehr lesenswert umgesetzt.

ganga 20 Gold-Gamer - 22830 - 22. Dezember 2015 - 15:08 #

Also 1200 PC Spiele halte ich schon für eine ausreichende Datenmenge. Die deutschen Fernsehquoten mit einer Stichprobe von 5000 Haushalten ermittelt. Das in beiden Fällen nicht nach streng wissenschaftlichen Vorgaben gearbeitet wurde dürfte auch klar sein.

Punisher 22 Motivator - P - 32223 - 22. Dezember 2015 - 15:20 #

Bei den Fernseh-Statistiken sind die Teilnehmer sogar nach sehr strengen Kriterien ausgewählt - die Teilnehmer entsprechen in der anteiligen Verteilung nach Bundesland, Alter, Familienstand, Bildungsniveau und Einkommen exakt der von ganz Deutschland - es ist somit eine repräsentative Gruppe. Das Problem, dass die Liste der Teilnehmer inzwischen nicht mehr so geheim ist wie vor einigen Jahren oder an anderen Enden betrogen/geschönt wird hat damit zunächst mal nichts zu tun.

Bei 1200 Games auf nur einer Plattform ist die Gruppe relativ wenig aussagekräftig weil sie keinen repräsentativen Querschnitt über die Spielelandschaft darstellt. Das heisst nicht, dass das Ergebnis falsch sein muss, allerdings könnte bei zufälliger Auswahl bei 1200 anderen Spielen wiederum ein völlig anderes Ergebnis rauskommen. Lass unter den 1200 Spielen nur mal viele "Enthusiastenspiele" dabei sein, die eine kleine, starke Fangemeinde haben und dann tausch diese durch umstrittene Produktionen großer Publisher aus... das Ergebnis wird sich arg verändern.

Borin 16 Übertalent - P - 5255 - 22. Dezember 2015 - 16:17 #

Zu den Fernsehstatistiken: Das Problem ist zum Beispiel, dass nur Einschalten zur vorgesehenen Sendezeit gezählt wird, was den Sehgewohnheiten vieler Menschen mehr entspricht. Weil über Ton ausgewertet wird, kommen aufgenommene und erst später angesehene Sendungen nicht zum Tragen. Das führt u.a. dazu, dass einige Sendungen aus dem Raster fallen, die i.d.R. von den sie sehenden Menschen aufgenommen werden. Hierfür gelten einige Serien auf Spartenkanälen als Standardbeispiel. Ganz zu schweigen von den Sendungen, die später über Mediatheken o.Ä. angesehen werden. Es gab dazu einmal einen sehr interessanten Artikel im "Zeit Magazin" (wenn ich mich recht entsinne, ansonsten war's im SZ-Magazin) von einem Journalisten, der ausgewählt wurde und das einige Monate mitgemacht hat.

Epic Fail X 18 Doppel-Voter - P - 10456 - 22. Dezember 2015 - 16:48 #

Ihr könnt mich gerne berichtigen, wenn ich in der Methodik der Messung der TV-Einschaltquoten falsch liege: Jeder Teilnehmer willigt ein, ein Gerät bei sich zu Hause aufzustellen und auf Knöpfchen zu drücken, wenn er/sie fernsieht. Richtig? Das ist nicht im Ansatz wissenschaftlich.
1. Das Subjekt weiß, dass es unter Beobachtung steht. Ein wie auch immer geartetes "normales" Verhalten ist damit nicht mehr zwingend gegeben. Das Problem gibt es ja bei vielen Beobachtungsstudien.
2. (und viel wichtiger) Die Teilnehmer sind repräsentativ? Im Ernst?
Was macht ein vernünftig denkender Mensch, der in der Fußgängerzone von einem Fernsehteam angequatscht wird? Er denkt und/oder sagt: "Verzieht euch! Ich hab keine Zeit für so einen Scheiß!" Vor der Kamera bleiben dann die übrig, die zu doof oder mediengeil waren, um weiterzugehen. Dass die Trotteldichte bei solchen Befragungen überdurchschnittlich hoch ausfällt, sollte dann nicht weiter verwundern.
Ähnlich ist es mit der Messung der TV-Einschaltquoten. Man muss schon über einen ausgeprägten Minderwertigkeitskomplex verfügen und zwanghaft Wege suchen, die eigene Bedeutung unter Beweis zu stellen, um auf die Idee zu kommen, dort freiwillig teilzunehmen. Repräsentativ? Ich hoffe nicht.

Borin 16 Übertalent - P - 5255 - 22. Dezember 2015 - 17:01 #

Zumindest eine kleine Berichtigung von mir, wobei ich das System genauso schwachsinnig finde. Die Leute werden nicht einfach in der Fußgängerzone angesprochen, außerdem werden sie nicht von Fernsehteams ausgewählt.

Lord Lava 19 Megatalent - 14373 - 22. Dezember 2015 - 17:31 #

So war das auch net gemeint. ;)

Punisher 22 Motivator - P - 32223 - 22. Dezember 2015 - 19:43 #

Die Leuten werden zum Teil tatsächlich "auf der Straße" oder per Telefon angesprochen, aber nicht auf diesem Wege ausgewählt, die eigentliche Auswahl erfolgt basierend auf den Angaben zu Alter, Geschlecht, Familienstand, Einkommen... die man den Promotern gibt. :)

Und ja, die Quoten sind totaler Humbug, werden allerdings erst bei der Erfassung der Daten und der Auswertung verfälscht, teils durch nicht mehr zeitgemäße Technik, Teils dadurch, dass sie auf Annahmen basieren, die längst nicht mehr zutreffen.

Punisher 22 Motivator - P - 32223 - 22. Dezember 2015 - 19:40 #

Ihr diskutiert jetzt aber über was völlig anderes - dass die Messung aus anderen Gründen nicht besonders toll, genau oder zuverlässig ist würde ich keine Sekunde in Abrede stellen. Es gibt wahnsinnig viele Stellen, wo man hier etwas "kaputt machen" kann... mir gings einzig uns allein um die Auswahl der Kandidaten für die Datenerhebung und die Datenbasis, du bist schon bei der Datenerhebungs- und Auswertungsmethodik, die inzwischen völliger Humbug ist, da gebe ich dir völlig recht.

Der Unterschied ist nur die Grundlage für die Datengewinnung, und die ist bei den TV-Quoten tatsächlich eigentlich geeignet, sinnvolle Daten zu liefern. Man spricht in der Fussgängerzone oder auch telefonisch einige tausend Leute an, macht eine Befragung zu den Daten die ich oben nenne und die, die man brauchen kann werden dann ausgewählt und repräsentieren dann im kleineren Maßstab Deutschland. Das ist eigentlich eine solide Ausgangs-Situation. Würdest du zufällig auswählen hättest du am ende 4000 Akademiker adliger Herkunft in deiner Testgruppe und Arte und 3Sat hätten auf einmal die besten Quoten.

DANACH, nämlich bei der Datenerhebung, passiert dann der Blödsinn den du beschreibst. Aber nochmal - das hat nichts mit der Testgruppe zu tun.

Borin 16 Übertalent - P - 5255 - 23. Dezember 2015 - 10:23 #

"Würdest du zufällig auswählen hättest du am ende 4000 Akademiker adliger Herkunft in deiner Testgruppe und Arte und 3Sat hätten auf einmal die besten Quoten."
Das Cliché mal übersehend: Wer sagt denn, dass das nicht so ist? Die Quote, von der Du gerade behauptest, dass deren Datenerhebungs- und Auswertungsmethodik "inzwischen völliger Humbug" ist? Ich glaube zwar auch, dass die Quoten halbwegs repräsentativ sind, aber hier bestätigt halt ein von wenigen Medienmachern gewolltes System seine eigene Methode.
Da ist, zurück zum Thema, Metacritic doch schon viel repräsentativer, was zumindest die Medien-, nicht aber die Userstimmen angeht.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 13:47 #

> Ebenso fehlt mir eine Information, wie diese 1200 Spiele ausgewählt wurden

Das sind die ersten zwölf Seiten von http://www.metacritic.com/browse/games/score/metascore/all/pc/filtered?sort=desc

Kimono hätte bis 25 gekonnt, theoretisch, praktisch hat die Apigeniererung nach weniger Seiten immer abgebrochen. Da die Daten aber nicht weiter gefitlert sind als durch Wertung sortiert (und genug vorhandenen Reviews) halte ich das eigentlich für valid.

> Bei H3 schreibst du ja selbst, dass die Datenbasis schlecht ist - du vergleichst 3 Spiele

Ja. Andererseits sind das auch alle, für welche die Aussage gelten könnte ;) Zumindest für PS4 und PC. Dann ists egal, wieviele es sind, wenn es alle sind.

Francis 18 Doppel-Voter - 9220 - 22. Dezember 2015 - 15:10 #

Interessanter Artikel, bitte mehr davon!

Roboterpunk 17 Shapeshifter - 6000 - 22. Dezember 2015 - 18:35 #

Ein schöner Artikel, auch wenn ich mir unter dem Titel einen Einblick in die Wertungsmathematik von Metacritic erhofft habe.
Das Problem liegt nach meiner Einschätzung nach etwas darin, dass die qualitativen, subjektiven und aus der langjährigen Erfahrung entstandenen Aussagen Jörgs mit quantitativen, harten Zahlen aus der Statistik getestet werden. Das ist sicher nicht untauglich aber es trifft den Punkt nicht genau. Dafür müsste man wohl auch noch Genre, Hersteller (!) oder "impact factor" der betreffenden Spiele einbeziehen, sprich den Einzelfall anschauen. Ich verbleibe für die Kaufentscheidung bei einer Mischung aus professionellen Reviews, Usermeinungen und Metacritic.

Wenn du aber die Datenbank schon hast. Mich würden weitere Fragen interessieren: Wie hat sich der Schnitt über die Jahre, Plattformen, usw. verändert? Wie haben sich die Genres entwickelt? Ich habe das Gefühl, die Spielepresse ist in der letzten Zeit nach den 95+ Orgien der PS3/X360-Generation wieder strenger geworden.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 13:48 #

Gute Ideen, und interessant wäre es auf jeden Fall. Leider habe ich die Daten dafür nicht.

rammmses 22 Motivator - P - 32639 - 22. Dezember 2015 - 15:24 #

Vielen Dank für den Artikel! Ein paar Sachen sind aber nicht ganz korrekt, relevanz der titel wurde schon erwähnt, zudem wird der streuungs effekt vernachlässigt. Ein erheblicher Teil der User Wertungen ist in extremen von 1/10 bzw. 10/10, der durchschnitt ergibt sich also zu einem großen Teil aus Wertungen, die für sich nichts wert sind. Ob der durchschnitt dann am ende doch zufällig den prifessionellen test trifft, ist irrelevant. Wenn ich bei einem Chemie Experiment mal 0 grad und mal 50 grad messe und die zu erwartenden 25 grad im durchschnitt auftauchen, ist das Ergebnis trotzdem wertlos;) will sagen, wenn es schon erhebliche Fehler in der Datenmenge gibt, ist es unsinnig, die darauf basierenden Ergebnisse zu untersuchen.

HAL9000 14 Komm-Experte - 2673 - 23. Dezember 2015 - 15:18 #

Das sehe ich genauso. Auch wenn sich viele Wertungen zufällig im Schnitt angleichen, heißt das noch lange nicht, dass das Ergebnis dafür das "Richtige" ist.
Eine Wertung ist und bleibt subjektiv. Einzelne Bestandteile, die zu dieser Wertung geführt haben, können zwar auf objektiven Gesichtspunkten beruhen, aber das Ergebnis, also der Spielspaß, ist immer ein subjektives. Daher finde ich Zahlwertungen ohne vernünftigen Begleittext, der in einer gewissen Eindringtiefe nachvollziehbar macht, warum man den Titel so gut oder schlecht findet, einfach sinnlos. Schlimmer noch, wenn verschiedenste Philosophien und Wertungssysteme zusammengeworfen werden, was soll denn dabei vernünftiges rauskommen?
Letztlich haben Metakritiken für mich nur in Extremfällen eine Aussagekraft, nämlich wenn sie entweder extrem hoch oder extrem niedrig ausfallen.

Tr1nity 28 Party-Gamer - P - 110368 - 23. Dezember 2015 - 16:16 #

Das Problem ist leider jedoch oft, daß sich viele nicht mal die Mühe machen einen Text zu lesen und springen gleich zur Wertung am Ende oder wollen nur eine Zahl wissen, weil sie darauf irgendwie fixiert sind.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 13:56 #

Das sehe ich anders. Wenn eine Masse von extremen Wertungen am Ende auf einen guten und passenden Durchschnittswert käme, würden wir das die Weisheit der Masse nennen und untersuchen. Und genau das ist vor einigen Jahren massenhaft (;-)) passiert.

HAL9000 14 Komm-Experte - 2673 - 26. Dezember 2015 - 11:23 #

Dem würde ich entgegenhalten, dass einen Unterschied zwischen einem durchschnittlichen und einem polarisierenden Spiel gibt.
Eine Anmerkung habe ich noch zum Titel: Er suggeriert, dass Hintergründe über die (mWn geheimen) Gewichtungskriterien von Metacritic offenbart werden, weil mit ziemlicher Wahrscheinlichkeit eine 4players oder GG-Wertung weniger stark einfließen als eine PCGamer-Wertung. Nichtsdestoweniger ist der Artikel lesenswert und diskussionswürdig, auch wenn ich grundsätzlich Metawertungen problematisch finde.

el_Matzos 19 Megatalent - - 13166 - 22. Dezember 2015 - 15:25 #

Erst mal danke für den schönen Artikel ... Zum Thema User- vs. Testerwertung hätte ich noch eine Anmerkung: Wenn die Userwertungen besser sind als die Wertungen der professionellen Tester, kann das auch daran liegen, dass die Entwickler ihrer Spiele nach dem Release massiv mit Patches und kostenlosen Erweiterungen versehen. Viele Spiele-Magazine testen Spiele nur einmal zum Release-Zeitpunkt und vergeben dann eine Wertung. Während die Userwertungen über die gesamte Zeit verteilt sind und die neueren Wertungen die Patches und Erweiterungen mit beinhalten.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 13:57 #

Das stimmt natürlich, und ist so ähnlich bei Heroes 7 zu sehen – da vergleiche ich die Durchschnittswertung mit einem GG-Nachtest.

Kühlschrankmagnet (unregistriert) 22. Dezember 2015 - 15:26 #

Danke für die Denkarbeit, die Recherche und die mit offenen Karten betriebene Aufbereitung. Und dank deiner klaren Sprache kommen viele Informationen nebst Deutungsangeboten auf gerade mal zwei knappen Seiten unter. Auch schön. :)

Sierra 27 Spiele-Experte - 84767 - 22. Dezember 2015 - 15:46 #

Schöner Artikel. Kurz und knapp und ohne Ausschweifungen.

Nokrahs 16 Übertalent - 5996 - 22. Dezember 2015 - 16:19 #

Interessanter Artikel den ich ohne Unterbrechung kurz mal eingeatmet habe.

Für mich persönlich sind Wertungen ohnehin nicht so relevant. Ein ausführlicher Testbericht, welcher die Mechaniken usw. zusammenfasst schon. Die Zahl am Ende wird immer von mir selbst vergeben.

Würde ich meine Spiele nach User oder Redaktionswertungen kaufen, dann hätte ich bis heute kein "Alien: Isolation" gespielt und würde Teewägen verabscheuen.

Trotzdem natürlich Danke für den Artikel, wie bereits geschrieben, sehr interessant.

Sp00kyFox (unregistriert) 22. Dezember 2015 - 20:00 #

ich habe zB Alien Isolation gerade wegen der diskrepanz zwischen redaktionellen wertungen und userkommentaren gespielt. da muss ich schon sagen, dass ich bei spielen wo ich prinzipiell interesse habe aber skeptisch bin, dann doch der austausch mit usern den letzten ausschlag gibt. umgekehrt übrigens auch bei Star Wars Battlefront um da auch ein beispiel zu nennen.

Nokrahs 16 Übertalent - 5996 - 22. Dezember 2015 - 23:04 #

Also ich liebe den Austausch mit anderen Spielern zu meinen Lieblingszocks und hänge auch in vielen Entwickler Foren ab. Nur bei Wertungen war ich schon immer skeptisch.

Das ist so oft wirklich Geschmackssache und ein Spiel muss mich einfach packen und unterhalten.

Jeder Mensch reagiert da etwas anders.

Nur weil mir beispielsweise bei einem "The Last of Us" die Augen feucht werden an gewissen Stellen im Spiel, muss das ja nicht beim Nachbarn der ebenfalls Gamer ist der Fall sein.

Mich hat das Spiel gepackt und ist für mich persönlich eine 10/10 auch wenn es rein analytisch betrachtet aufgrund der teils durchwachsenen Spielmechanik kein Meilenstein und eigentlich deswegen ein 7-8er Titel für die Datenbank ist.

Bei "Alien: Isolation" ähnlicher Fall. Großer Fanbonus durch den Ridley Scott Streifen und endlich ein passendes Spiel zum Thema und kein weiterer Shooter.

Philley (unregistriert) 22. Dezember 2015 - 18:21 #

Die Überschrift hat zwar nichts mit dem Inhalt des Artikels zu tun, aber der war ja trotzdem interessant. Also vielen Dank.

guapo 18 Doppel-Voter - 11864 - 23. Dezember 2015 - 20:06 #

De Ueberschrift verwirrt nur

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 14:09 #

Gemeint ist nicht "Wie metacritic seine Wertungen konstruiert", sondern "Wie Metacritics Wertungen wirklich sind", im Gegensatz zur Kritik. Glaube schon, dass man den Titel auch so verstehen kann wie er gemeint ist, die Unklarheit war aber nicht beabsichtigt.

Horschtele 16 Übertalent - 5693 - 22. Dezember 2015 - 20:51 #

Für die Einordnung wäre es eventuell noch hilfreich, ein paar Paradebeispiele zu ergänzen.

Arno Nühm 18 Doppel-Voter - 9327 - 22. Dezember 2015 - 22:21 #

Methodisch schön gemachter User-Artikel.
Weiter so :-)

RoT 21 AAA-Gamer - P - 26097 - 23. Dezember 2015 - 5:41 #

schöner stil,

also ich meine, dass GG "kritik" zulässt und gar als top news listet...

toll auch, dass es "kritische" fans wie onli gibt.

:)

weiter so.

Mazrim_Taim 16 Übertalent - 4088 - 23. Dezember 2015 - 11:59 #

Frage (ggf. an den Autor).
Was käme dabei raus wenn man bei Metacritic die ganzen A-Kriecher und Hass Bewertungen rausnimmt?
Also alle Bewertungen unter 30% und alles über 90%.
Hier dürfte der Metascore dann "stimmen".

HAL9000 14 Komm-Experte - 2673 - 23. Dezember 2015 - 15:24 #

Die Höhe einer Wertung hat doch keine Aussagekraft über deren Wahrheitsgehalt. Entscheidend ist doch, wie 30% und 90% begründet werden. Damit erreichst Du lediglich eine geringere Streuung, was der Glaubwürdigkeit des Metawerts auch nicht weiterhilft, die Werte werden dadurch nur "glatter". Bei totalen Gurken und Top-Titeln erreichst Du damit im Übrigen genau das Gegenteil.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 14:05 #

Bei den Spielen außerhalb der Top-100 oder Top-300 könnte man es trotzdem probieren, totale Gurken sind insgesamt nicht dabei.

Ich habe allerdings dafür die Daten nicht. Dafür müsste man jeden einzelne Wertung in die Api nehmen, in meiner ist aber nur der Durchschnitt.

onli 18 Doppel-Voter - P - 12247 - 24. Dezember 2015 - 14:07 #

Freue mich übrigens sehr über die netten Kommentare hier. Danke an euch.

Moriarty1779 19 Megatalent - - 17151 - 28. Dezember 2015 - 15:51 #

Heute bietet jede Plattform, jeder Online-Shop und jedes soziale Medium wirklich jedem Nutzer die Chance, irgendetwas zu "bewerten".

Dadurch hat sich noch viel mehr als zu Print-only-Zeiten das Gefühl bei vielen Gamern gefestigt, dass Ihr Medium in ein Raster aus Zahlenwerten gepresst werden kann. Wenn 73% der Kunden einen Wert von mindestens 86 v. 100 Punkten geben, DANN ist das Spiel gut?

Hinzu kommt, dass das Medium Videospiel aus verschiedenen Blickrichtungen betrachtet werden kann:
Grafik kann aus rein technischer Sicht durchwachsen, aber aus künstlerischer Sicht als wunderbar beschrieben werden.

Auch der Kontext machts: Im Vergleich mit anderen Videospielen ist die Narration außergewöhnlich gut - im Vergleich mit anderen narrativen Medien platt und hanebüchen...

Genau hier sehe ich heute nach wie vor die Profession des Spielejournalismus. Ein Spiel so zu besprechen, dass ich als Gamer ein Bild davon bekomme. Dass ich die Bestandteile des Spiels einordnen kann, ob sie in meine eigene Erwartungshaltung passen.

Ich persönlich brauche keine Prozentwerte. Von mir aus könnte Gamersglobal Spiele feuilletonistisch besprechen und ohne Wertung schließen. Ich weiß aber, dass andere die Zahl unter dem Test brauchen, daher stört sie mich nicht.

Metacritic hat für mich keinen Wert. Mag sein, dass sich mit wissenschaftlichen Methoden eine Korrelation zwischen subjektiver und anonymer Masseneinschätzung finden lässt, ich selbst werde auch zukünftig bei der Wahl zwischen zwei Spielen, die jeweils von 1.000 anonymen Metakritikern oder von einem meiner aus Erfahrung geschätzten Spielerestern empfohlen wurden, immer das letztere nehmen.

Eine Einschränkung mache ich da noch: "Spieletester" sehe ich da nicht als Profession, sondern als subjektives Gefühl, dass derjenige den gleichen Geschmack hat wie ich. Das kann also auch ein Kumpel sein oder ein Let' Player... bisher hatte das immer Erfolg und ich habe wenig schlechtes gespielt.