Posts mit dem Label Prediction werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Prediction werden angezeigt. Alle Posts anzeigen

Samstag, 23. Juli 2016

Bilanz der abgelaufenen Saison und Vorschau auf die kommende

Bereits vor einigen Wochen habe ich mich an dieser Stelle etwas eingehender mit dem Zusammenhang zwischen der wirtschaftlichen Stärke und dem sportlichen Erfolg von Fußballklubs im Allgemeinen und im Speziellen bei einer genaueren Untersuchung der Verhältnisse im österreichischen Spitzenfußball. Wir konnten dabei sehen, dass im Falle der österreichischen Budnesliga der Durchschnittsmarktwert eines Teams als Indikator für seine wirtschaftliche Stärke mehr als die Hälfte der Varianz der erreichten Punkte erklärt; sportlicher Erfolg ist also in großem Maße von den dahinterstehenden wirtschaftlichen Möglichkeiten abhängig, wird aber nicht komplett von diesen determiniert. 

Modelle, die derartige Zusammenhänge untersuchen, eignen sich auch, um Prognosen über zukünftige Leistungen herzustellen. Die Idee dahinter ist, dass ein Faktor (wie beispielsweise die wirtschaftlichen Möglichkeiten eines Klubs) hoch mit einem anderen korrelierte, wird das auch in Zukunft der Fall sein. Aufgrund der Ausprägung des ersten Faktors können wir daher mit einer gewissen Wahrscheinlichkeit diejenige des anderen (zum Beispiel Punkte am Saisonende) vorhersagen. 

Da die genaue Anzahl der Punkte sicher schwer vorherzusagen ist, ist es sinnvoll, nicht nur den prognostizierten Wert anzugeben, sondern auch Konfidenzintervalle. Diese geben den Bereich an, in dem der prognostizierte Wert mit einer gewissen Wahrscheinlichkeit (in diesem Fall 95%) liegt. Werte darunter oder darüber deuten dementsprechend eine außergewöhnlich gute oder schwache Saison an.

Graphik 1 zeigt diese Prognose für die Teams der österreichischen Bundesliga für die Saison 2015/16 (inklusive Konfidenzintervallen in Schwarz gehalten) und vergleicht diese Prognose mit den tatsächlich erreichten Punkten (die in Rot in die Graphik eingefügt sind). Geordnet sind die Teams nach ihrem tatsächlichen Abschneiden.

Graphik 1
Zu Beginn sehen wir, dass Meister Salzburg trotz gewisser sportlicher Probleme und des Verschleißes gleich dreier Cheftrainer in der ersten Saisonhälfte eine Punktlandung gelang. Man holte genau so viele Punkte wie das Modell prognostizierte. Dahinter folgen drei Teams aus Wien und Umgebung, die weit besser abschnitten als man vor der Saison annehmen konnte; alle drei liegen sogar über dem Ende ihrer Konfidenzintervalls, allen voran das Sensationsteam aus der Südstadt. Aber auch Rapid und die Austria können mit dem sportlichen Abschneiden in der Vorsaison zufrieden sein und werden Schwierigkeiten haben, in der folgenden Saison diese Punkteausbeute zu bestätigen.

Dahinter folgt mit Sturm eine der gemessen an den Erwartungen schwächsten Mannschaften der abgelaufenen Saison. Das unterdurchschnittliche Abschneiden kostete die Grazer letztlich einen Europacupplatz, damit dringend benötigte Einnahmen und kann dafür sorgen, dass man in eine Abwärtsspirale gerät (je weniger Einnahmen, desto weniger sportlicher Erfolg, desto weniger Einnahmen aus Sponsorverträgen und Europacup, etc). Die Mittelständer Wolfsberg, Ried und Altach, die während der Saison zum Teil auch erhebliche Probleme hatten, konnten sich letztlich relativ ungefährdet in der Liga halten. 

Mattersburg ist wiederum ein interessanter Fall. In meinem Modell ist es der am schwächsten abschneidende Klub, was daran liegt, dass das Modell Aufsteiger anders beurteilt als andere Teams, da diese in der Vergangenheit besser als erwartet abschnitten und deshalb das Modell durch diese Ungleichbehandlung verbessert werden konnte, was letztlich immer das Ziel ist. Es wird deshalb interessant sein, zu sehen, ob Mattersburg ein Ausreißer in der Reihe der positiven Aufsteiger der vergangenen Jahre ist oder ob diese Serie nicht doch eher dem Zufall entsprang. Allein von seinem Durchschnittsmarktwert her hat Mattersburg nämlich im Grunde die Punkteanzahl erreicht, die man vermuten könnte.

Am Tabellenende steht Grödig, das nur wenig unter der Punkteprognose landete, was letztlich aufgrund eines mangelnden anderen Underperformers aus der Gruppe der Nachzügler der Plätze 6-9 nicht zum Klassenerhalt reichte.

Den Vergleich zwischen erwartbaren und tatsächlich erreichten Punkten kann man auch  für die verantwortlichen Trainer anstellen. Unterschiede zwishen Graphik 1 und Graphik 2 ergeben sich also bei den Vereinen, die im Laufe der abgelaufenen Saison mehr als einen Trainer in Amt und Würden hatten, bei allen anderen ist das Ergebnis für den Trainer logischerweise gleich wie für den Klub insgesamt. Um die Werte vergleichbar zu machen, sind nicht mehr absolute, sondern Durchschnittswerte angegeben.

Graphik 2
Die Trainer in Graphik 2 sind nach der Anzahl an durchschnittlich geholten Punkten geordnet und nicht nach prognostizierten. Dennoch sind die drei in Salzburg tätig gewesenen Cheftrainer im Ranking ganz vorne, holten im Schnitt also am meisten Punkte. Dennoch zeigt sich, dass die Mannschaft unter Zeidler leicht unterdurchschnittlich abschnitt, weshalb seine Freistellung zumindest aufgrund der Resultate gerechtfertigt erscheint.

Danach folgen die Coaches der beiden Wiener Klubs, die wie bereits erwähnt besser als erwartet abschnitten (was die Trennung Rapids von Barisic zweifelhaft erscheinen lässt, zumindest aus sportlicher Sicht), und die Trainer der beiden positiven Überraschungen der abgelaufenen Saison, dem WAC nach dem Trainerwechsel (ein klassisches Beispiel der Regression zum Mittelwert) und der Admira.

Insgesamt zeigt sich, dass die meisten Trainer in etwa im erwartbaren Bereich abschneiden, was sich mit bisherigen Unterscuhungen deckt: Die meisten Chefcoaches haben weder einen besonders positiven noch einen besonders negativen Einfluss auf die Ergebnisse ihrer Mannschaften. Diejenigen Coaches, die jedoch die Erwartungen deutlich untererfüllen, werden meist schnell freigesetzt. Von den vier Trainern, die in der abgelaufenen Saison deutlich unter dem Konfidenzintervall liegen, überlebt nur einer (der Sonderfall Vastic) die Saison. Die anderen drei wurden bereits während der Herbstsaison entlassen.

Graphik 3
Zuletzt kann man das Modell auch heranziehen, um die Punkte für die kommende Saison zu prognostizieren (siehe Graphik 3). Allen voran ist auch diesmal wieder Meister Salzburg zu erwarten, deren unteres Ende des Konfidenzintervalls noch weit vor der Konkurrenz liegt. Das Modell sagt also mit einer 95%igen Wahrscheinlichkeit eine Titelverteidigung voraus. Dahinter folgen wie in der vergangenen Saison die beiden Wiener Vereine in der gleichen Reihenfolge wie sie auch 2015/16 abschlossen.

Dahinter folgt bereits Aufsteiger St. Pölten. Wie bereits die vergangenen Jahre bewertet das Modell den Aufsteiger besser als andere Klubs mit vergleichbarem Marktwert, da diese in den vergangenen Jahren vor Mattersburg weit besser als erwartet abschnitten. Ob diese Entwicklung bereits beendet ist oder weiterhin besteht und Mattersburg nur eine Ausnahme war, wird sich erst weisen. Das breite Konfidenzintervall zeigt auf jeden Fall, dass für die Niederösterreicher einiges drinnen ist: Ein Rückfall ins hintere Mittelfeld ist genauso drinnen wie ein Angriff auf die Europacupplätze. Nur mit dem Abstieg sollte man die nächsten beiden Saisonen nichts zu tun haben.

Dahinter folgt Sturm, das wohl wie im letzten Jahr die Europacupplätze verpassen wird. Die Einschätzung des runderneuerten Kaders lässt die Punkteprognose im Vergleich zum Vorjahr um etwa sieben Punkte zurückgehen, was nur für das Tabellenmittelfeld reichen wird. Hinter den Grazern beginnt bereits die Abstiegszone, in der sich fünf Teams innerhalb eines Bereichs von circa zwei Punkten tummeln. Die Reihenfolge innerhalb der Plätze sechs bis zehn ist also höchst unsicher, schon kurze Stärke- oder Schwächephasen können massive Auswirkungen auf das Endergebnis haben. Die Liga verspricht einen Abstiegskampf auf Messers Schneide.


Freitag, 10. Juni 2016

Predicting the 2016 European Championship

In their excellent book Soccernomics, Simon Kuper and Stefan Szymanski identify three principal factors which affect the sporting performance of nations. Ranking countries in various sports including association football according to the results they obtained they authors find that these are largely dependent on population size, socioeconomic development and the experience nations had made in the same sport before. The logical link between these variables and sporting success is evident; the more people there are in a country, the more talented athlets there are (assuming that talent is normally distributed). Wealth on the other side allows communities and nations to invest into infrastructure, education and development programs which enhance players and athletes to exploit their full potential. The last point, experience, is self-evident. 

Building on the logic that there are some important factors which explain past performances, one can take these variables and try to predict future ones. That is what I will demonstrate in this blog post. In order to perform the predictions, I collected data on all the teams which participated in one of the five last European championships (starting with the one in 1996). Data for population size and the level of development procede from the World Bank database. The experience gathered before the respective tournament was operationalized using countries' rank in the most recent FIFA World Raking (an imperfect measurement, I know, but I could not find anything better which is available for a reasonable period of time). In some cases (for instance the former Yugoslavian states) I had to look for information in Wikipedia or different publicly available statistics sources. This procedure left me with data on 80 nations (five tournaments with 16 participant nations each) which played 155 games among each other. Although technically speaking this is time-series cross-section modell, I considered all the observations to be independent from each other. 

Subsequently, I ran a couple of logit regressions in order to assess the probability of each nation to reach quarter-finals, semi-finals or final and to win the tournament (due to the changed number of participants I was not able to model the round of last 16 probabilities using this rather simple method). Models were varied a little, given different weighting to the factors (including the fact that a country was the host or not). Finally averages from the different models were calculated. In a further step, I modeled win, draw and lose probabilities for each game of the group stage using the same methodology. Summing up the results, I was able to identify those nations which would most likely make it to the round of the last 16 and preceded in predicting the most likely outcomes of the final stages, which well be presented later on.

The following graphes show the respective probabilites of each country to reach the final stages of the tournament according to my models. The ranking of the nations differs a bit in the various graphs due to the fact that the factors obvioulsy play different roles in the prediction of different last rounds. Especially in later stages, factors such as luck and randomness should play a more pronounced role, weakening the predictive power of objective variables. Note that the numbers in these graphs also do not take into account opposition strength.

Graph 1
Graph 1 shows the respective probabilities of each nation to reach the quarter-finals. At the top we have Belgium, the best European team in the FIFA ranking. The following countries Portugal, Spain and Germany are also among the ten best nations in the ranking. Meanwhile, Turkey benefits from a quite high population size. 

Interestingly, France has a quite low probability of surpassing the group stage and round of last 16 according to my predictions. This is most likely due to the bad performances of the hosts in the last tournaments. Neither in 2008 (Austria and Switzerland) nor in 2012 (Poland and Ukraine) did a host survive the earliest stage of the championship, which is why the value for France is most likely a bit biased.

As we can see, when it comes to the likelihood of reaching the semi-finals (graph 2), France displays the highest one. Hence, the model predicts a hard time for France in the earlier games but, if Les Bleus manage to survive them, a relatively easy quarter-final. On the other hand, smaller nations such as Belgium, Portugal and Austria would have a harder time from the round of last eight onwards, despite their good rank in the FIFA list. 
 
Graph 2

If they make it to the semi-finals, the host squad is also very likely to reach the final game. Germany has however the highest possibility to stay in the tournament until July 10th, which is not very surprising given their high population size, level of development and classification in the FIFA ranking. Spain and Belgium are not far away from France (see graph 3).

Graph 3
The probability of a host win is in any case extremely low. France is in this case punished by the fact that I only have one host team in a final in my sample, which lost it (Portugal in 2004). Due to this low number of cases, the results for France should not be overestimated. In any case, the fact that Germany, Belgium, Spain and England appear on top of the list should mean something. Again, note the quite good foresight for Turkey (in graph 4).

Graph 4
All in all, the results are not too convincing given the low number of cases they are based on (although 80 is more than you would have when predicting a national league, it is still quite low). That is why I extended the sample by not looking on teams, but individual matches, and tried to predict the most likely outcome. As usual, the model rated the possibility of a draw very low (only one draw in 36 group stages games, vis-à-vis 27 draws in 120 group stage games in my sample). This is why I corrected (increased) the draw probability in games where predictions were close.

Summing up the points, goals scored and goals conceded which predicted my models, I ended up with the following list of teams which would make it to the final stages (see graph 5). 

Graph 5
Germany and France, the nations most likely to reach the final, are expected to win all three group stage games and qualify without any worries for the final stages. Likewise, Spain, Italy, England, Belgium and Austria are to finish their groups without losing a single game. On the other hand, Hungary, Wales, Poland and Ireland will depend on the results of the other two third-finishing nations (in my predictions, Switzerland and Croatia). 

This prediction leaves me, following UEFA rules for the composition of the round of last 16 games, with the following matches:
  • Romania vs. Ukraine
  • Spain vs. Hungary
  • England vs. Poland
  • Austria vs. Italy
  • Germany vs. Wales
  • Belgium vs. Turkey
  • France vs. Ireland
  • Russia vs. Portugal
The only really tight prediction for these eight games according to my models is for Austria against Italy, in which the latter is 50.7% favorite. For all the other games, odds for the winner are at least 59% (in the case of Belgium) but rather between 70% and 90%.

Subsequently, the quarter-finals would be:
  • Romania vs. Spain
  • England vs. Italy
  • Germany vs. Belgium
  • France vs. Russia
Here again, we have one really tight game (Germany against Belgium with the probability of Germany winning only at 50.1%) and three relatively clear favourites (France, England and Spain).

Hence, the semifinals would see Spain facing and beating England (59 to 41) and France against Germany. The latter will be a close match with my models predicting a 52% chance of reaching the  final for the host team.

In the final, on average my models see Spain as favourite (at around 56%). Therefore, one could expect the Iberains to defend their title. Once again.

Dienstag, 12. Januar 2016

Wie schneiden die Trainer ab?

Vor einigen Tagen untersuchte ich im ersten Teil eines Schwerpunkts zum Zusammenhang zwischen wirtschaftlichen Möglichkeiten und sportlichem Erfolg in der österreichischen Bundesliga (der zweite Teil folgt in den kommenden Tagen), inwieweit der Marktwert eines Teams seine Punkteausbeute am Saisonende prognostizieren kann. Der Marktwert wird dabei als Indikator für die Qualität der zur Verfügung stehenden Spieler und damit auch des zur Verfügung stehenden Budgets angesehen; Vereine mit mehr Geld können sich bessere Spieler leisten und sie länger bei sich halten, was sich in einem höheren Durchschnittsmarktwert niederschlägt. Dies wiederum führt zu besseren Leistungen auf dem Feld und besseren Ergebnissen im Endklassement. 

Die Ergebnisse zeigen, dass der Zusammenhang recht stark und statistisch signifikant ist und sich durchaus mit Ergebnissen aus Untersuchungen über andere Ligen und Ländern deckt. Etwas mehr als die Hälfte der Varianz in der Punkteanzahl der Teams am Ende der Saison von 2010 bis 2015 kann mittels des Durchschnittsmarktwerts erklärt werden. Das lässt allerdings auch Raum für zusätzliche Erklärungen. Die Resultate eines Teams können unter Umständen auch von Glück oder Pech, Verletzungen, Doppel- oder Dreifachbelastungen oder Schiedsrichterentscheidungen beeinflusst werden, und einige dieser Faktoren werde ich auch in zukünftigen Beiträgen untersuchen, solange sie sich quantifizieren lassen. In diesem Beitrag hingegen soll es um die Rolle der Cheftrainer gehen.

Um deren Einfluss auf die Punkteanzahl zu eruieren, nehme ich die Amtszeit aller jener, die zwischen Saisonbeginn 2010 und Winterpause 2015/16 als Cheftrainer (vorerst inklusive Interimstrainer) tätig waren. Dadurch ergibt sich ein Sample von 51 Personen. Deren jeweilige Amtszeiten pro Klubs unterteile ich noch einmal in die unterschiedlichen Saisonen, da pro Saison meist ein etwas anderer Kader mit unterschiedlichen Marktwerten zur Verfügung stand. Damit vergrößert sich das Sample auf 90 Untersuchungseinheiten. Von diesen wiederum exkludiere ich Kurzzeit- und Interimstrainer, die weniger als fünf Spiele als Cheftrainer verantwortlich waren, für die meisten Berechnungen. Das endgültige Sample umfasst daher 83 Untersuchungseinheiten. In einem späteren Schritt werden die Ergebnisse der einzelnen Saisonen (und bei Coaches die in mehr als einem Verein tätig waren auch diese) wiederum addiert, um für jeden Cheftrainer einen einzelnen Wert zu errechnen (siehe unten Graphik 2).

Zuerst sehen wir uns, wie sich die Untersuchungseinheiten in Bezug auf prognostizierte und tatsächliche Werte verhalten. Wie Graphik 1 zeigt, ist dieser Zusammenhang ähnlich stark ausgeprägt wie bei den Vereinen. Das Bestimmheitsmaß liegt etwas niedriger (0,46 gegenüber 0,53), was angesichts der höheren Fallzahl vielleicht etwas überraschen mag. Allerdings muss dazu angemerkt werden, dass trotz des Ausschlusses der Kurzzeittrainer mit weniger als fünf Spielen dennoch noch eine Reihe von Trainern mit vergleichsweise kurzen Saisonamtszeiten im Sample vertreten sind. Vier davon dauerten genau fünf Spiele, eine sechs, drei sieben, zwei acht und wiederum drei neun Spiele lang. In diesen kurzen Zeiträumen kann ein Trainer wahrscheinlich noch nicht allzu viel ausrichten, selbst wenn er ein sehr guter ist. Andererseits können schlechte wohl auch nicht besonders verschlimmern. Tatsächlich finden sich in diesem Subsample der Trainer mit zwischen fünf und neun Spielen sowohl über- als auch unterdurchschnittlich gut abschneidende, wobei diejenigen, die weniger Punkte als erwartet holen, doch etwas stärker vertreten sind. Durchschnittlich holten diese 13 Trainer im Schnitt 0,23 Punkte pro Spiel weniger als erwartet. Das liegt wahrscheinlich daran, dass diese meist entweder bereits zu unter den Erwartungen spielende Mannschaften kamen und die Abwärtsspirale nicht mehr aufhalten konnten, oder sie waren punktemäßig wirklich schlecht und wurden nach einigen Runden entlassen (Kolvidsson, Grubor).

 Graphik 1

Wenn diese Trainer aus dem Sample entfernt werden, steigt die Korrelation bei den verbleibenden tatsächlich auf das gleiche Maß wie bei den Teams auf die gesamte Saison gerechnet. Kurzzeittrainer haben also kaum eine Möglichkeit, auf die Resultate ihres Teams einen positiven Einfluss zu nehmen. Das Limit, das man einem Trainer geben sollte, scheinen also in etwa zehn Spiele oder ein Saisonviertel zu sein. Dennoch erscheint es mir nicht sinnvoll, diese gänzlich aus den Untersuchungen auszuschließen; auch wenn man die Resultate erst nach einigen Wochen beurteilen sollte, kann die geleistete Arbeit auf lange Sicht durchaus aufschlussreich sein. Ricardo Moniz konnte beispielsweise nach seiner kurzen Amtszeit am Ende der Saison 2010/11 in der folgenden Spielzeit den (wenn auch schmeichelhaften, weil punkteschwachen) Meistertitel holen. Auch Zoran Barisic konnte offensichtlich die verbleibenden Spiele der Saison 2012/13 sinnvoll nützen, um den Grundstein für zwei überdurchschnittlich gute Folgejahre zu legen.

Die Punkte in Graphik 1 sind farblich unterschiedlich eingefärbt, je nach Verein, bei dem der jeweilige Trainer angestellt war. Dies soll eine erste Annäherung an die Frage ermöglichen, ob bestimmte Vereine eine besonders gute Nase bei der Trainerauswahl haben und kontinuierlich Overperformer anstellen. Die rein graphische Darstellung legt jedoch keine deutlichen Schlüsse nahe; von allen Verein finden sich Punkte sowohl über (gut) als auch unter (schlecht) der Regressionsgeraden. Auffällig ist allenfalls der braune Punkt zentral ganz oben im Diagramm, der die Meistersaison der Wiener Austria unter Peter Stöger repräsentiert; diese Saison war diejenige im Untersuchungszeitraum, in der die Erwartungen am meisten übererfüllt wurden (27 Punkte über dem Erwartungswert).

Im folgenden Schritt addiere ich für alle Trainer im Sample (wiederum mit mindestens fünf Spielen) die Punkte, die sie mehr geholt haben als erwartet werden konnte (das kann dementsprechend auch ein negativer Wert sein), und dividiere sie durch die Anzahl der Spiele, in denen sie als Cheftrainer verantwortlich waren. Die Ergebnisse dieses Schritts sind in Graphik 2 dargestellt und einigermaßen überraschend.

Graphik 2

An der Spitze des Rankings steht nämlich ein Coach, den dort wohl niemand erwartet hätte. Schließlich ist Ernst Baumeister im Sommer nur aus besonderen Umständen Coach der Admira geworden und war davor bereits in den Niederungen des Amateurfußballs verschwunden. Ein Teil seines guten Werts ist sicher darauf zurückzuführen, dass der diesjährige Höhenflug der Admira auf tönernen Füßen steht und wahrscheinlich nicht bis zum Saisonende andauern wird. Außerdem beruhen die Daten auf "nur" 20 Spielen und sind damit weniger aussagekräftig als die der Trainer, die im Ranking unmittelbar hinter ihm liegen.

Der wichtigste Grund dafür dürfte aber ein anderer sein. Ich habe für dieses Ranking das rechtliche Prinzip herangezogen und seine Amtszeit, genauso wie die von Walter Knaller, als eigenständige Amtszeiten gerechnet. Organisationssoziologisch korrekter wäre es wohl, sie mit jenen von Oliver Lederer zusammenzurechnen, der pro forma Assistenztrainer ist, tatsächlich aber wohl der entscheidende Akteur ist. Interessanterweise sind alle drei im positiven Bereich, konnten insgesamt also mehr Punkte holen als erwartet. Wenn man alle Spieler mit Lederer als Co-Trainer zusammenrechnet, liegt der Wert insgesamt 0,15 Punkte pro Spiel über dem Erwartungswert. In 89 Spielen macht das insgesamt 13 Punkte mehr. Über eine gesamte Saison gerechnet sind das fünf Punkte mehr als erwartet, was in Abstiegskämpfen durchaus ein nicht zu vernachlässigender Wert ist. Oliver Lederer scheint also tatsächlich ein großes Trainertalent zu sein und die Admira tut gut daran, ihn möglichst lange bei sich einzubinden.

Hinter Baumeister liegen im Ranking einige Trainer, die man dort eher erwartet hätte. Peter Stöger konnte nach zwei erfolgreichen Saisonen in Österreich seine Karriere in einer stärkeren Liga fortsetzen. Ihm folgt Paul Gludovatz, der seit Jahren bei der SV Ried äußerst erfolgreich arbeitet (und interessanterweise nie als Trainer zu einem größeren Klub wollte oder durfte). Auch sein langjähriger Co-Trainer Schweitzer belegt mit seinen Amtszeiten als Cheftrainer einen der vordersten Plätze. Es ist auch kein Zufall, dass die dahinter folgenden Trainer Foda, Fink, Schmidt und Barisic bei den großen Klubs der Liga angestellt waren. Dahinter folgt mit Damir Canadi der taktisch wahrscheinlich flexibelste derzeitige Bundesligacoach. Deutlich im Plus ist vielleicht auch etwas überraschend Peter Schöttel, der vor allem bei Rapid keine besonders guten Erinnerungen hinterließ, aber in jeder einzelnen Saison mehr Punkte holte als erwartet. Aufgrund der Tatsache, dass keiner der besten Trainer dieser Wertung derzeit arbeitslos ist, kann man schließen, dass der Trainermarkt in Österreich einigermaßen effizient funktioniert (mit Ausnahme von Peter Hyballa, aber das hatte wohl andere Gründe).

Dasselbe gilt sinngemäß für die Trainer am anderen Ende der Wertung. Keiner der Trainer, die 0,25 oder mehr Punkte pro Spiel unter dem Erwartungswert liegen, ist derzeit in Amt und Würden. Diejenigen unter ihnen, die nur interimistisch tätig waren (Schopp, Ogris) wurden wohl zu Recht nicht langfristig beschäftigt. Die Amtszeiten aller anderen dauerten hingegen selbst nie länger als eine Saison. Auch wenn es bei ihnen nicht immer nur eigenes Unvermögen war, haben Vereine doch gemerkt, dass sie zumindest auch nicht überdurchschnittlich sind und haben dementsprechend oft schnell reagiert. Warum sie diese Coaches überhaupt eingesetzt haben, ist hingegen eine andere Frage.

Insgesamt zeigt sich, dass es mehr schlechter abschneidende Coaches als bessere gibt. Der Medianwert der 45 Coaches beträgt -0,03, das heißt, dass mehr als die Hälfte der Trainer weniger Punkte pro Spiel holte als erwartet. Wenn wir als (willkürliche) Grenze festlegen, dass ein sehr guter Coach mindestens 0,2 Punkte pro Spiel mehr holt als erwartet, bleiben abzüglich Baumeister nur fünf Trainer übrig (also 11%). Von Trainern mit mehr als 20 absolvierten Spielen erreichen nur 8 mehr als 0,06 Punkte über dem Erwartungswert, liegen also außerhalb des Standardfehlers der Punkteerwartung, also knapp 18% (insgesamt waren 31 Trainer für mindestens 20 Spiele im Amt, das wären also 26%. Da die weniger als 20 Spiele bestritten haben jedoch auch tendenziell die schwächeren Trainer sind, kann man durchaus alle 45 mitrechnen). Dazu muss gesagt werden, dass 0,06 Punkte pro Spiel auf die gesamte Saison gerechnet lediglich zwei Punkte sind, also der Unterschied zwischen einem Sieg und einem Remis. Dieser Wert deckt sich in etwa mit den Berechnungen des Ökonomen Stefan Szymanski, der davon ausgeht, dass maximal 20% der Profitrainer einen statistisch signifikanten positiven Einfluss auf die Ergebnisse ihrer Mannschaften haben. Natürlich kann ein Trainer einmal ein gutes Halbjahr oder sogar eine gute komplette Saison haben, aber über einen längeren Zeitraum sind die meisten eben durchschnittlich.

Es ist für Klubs in der obersten Liga also schwierig, Trainer zu finden, die kontinuierlich bessere Ergebnisse einfahren und bereits Erfahrung in der Liga gesammelt haben. Dazu kommt, dass diejenigen, auf die das zutrifft, bereits vergeben sind und zudem auch ins Ausland gehen (Stöger, Schmidt). Wenn ein Trainer danach auch noch in punkto Spielphilosophie und Transferpolitik zum Klub passen soll, wird es vor allem für kleinere Vereine beinahe unmöglich, einen Trainer mit Bundesligaerfahrung zu bekommen. Klubs müssen dementsprechend ihr Blickfeld erweitern und entweder in niedrigere Spiellassen schauen (wo sich beispielsweise Damir Canadi hervorragend schlug, bis er eine Chance weiter oben bekam) oder in ausländische Ligen, die niedriger einzuschätzen sind als die österreichische und deren Personal deshalb bereit ist, hierher zu kommen (zum Beispiel Thorsten Fink, wobei der natürlich auch schon weiter oben gearbeitet hat).

Graphik 3

Dass der Trainermarkt einigermaßen effizient funktioniert, gute Trainer also lange im Amt sind und weniger gute dementsprechend weniger, zeigt auch Graphik 3. Tendenziell stehen Trainer an der Seitenlinie, solange sie mehr Punkte holen als erwartet. Natürlich gibt es auch einige unterhalb der Regressionsgeraden, aber das ist logisch (sonst wäre es keine Regressionsgerade). Aber wirklich verstörend wäre es nur, wenn Coaches in diesem Diagramm weit rechts und weit unten aufschienen. Das jedoch ist nicht der Fall. Von den Trainern mit mehr als 55 Spielen (der natürliche Logarithmus davon ist 4, also in der Graphik Bjelica, Canadi und Knaller sowie alle rechts davon) holte keiner weniger als 0,25 Punkte pro Spiel unter dem Erwartungswert. Die meisten von ihnen holen in etwa so viele Punkte wie man erwarten kann. Von denen, die mehr Punkte als erwartet holten und die weniger Spiele im Amt waren, sind die meisten entweder Interimstrainer, der bereits erwähnte Sonderfall Lederer/Baumeister oder Thorsten Fink, der aus logischen Gründen noch keine lange Amtszeit haben kann, allerdings wahrscheinlich eine haben wird. Vereine sind bei der Trainerauswahl also weitgehend rational, wenn man Punkteausbeute als Indikator für die eigenen Ziele herannimmt.

Damit kommen wir zu Unterschieden zwischen den Verein, was die Trainerausbeute betrifft. Graphik 4 vergleicht die Vereine, die in den letzten fünf Saisonen in der Bundesliga vertreten waren, und zeigt, wie viele Punkte die Trainer in diesem Vereine mehr oder weniger geholt haben als man erwarten konnte. Die schwarzen Querlinien in den Boxplots weisen auf die Medianwerte hin, die blauen Punkte auf die Durchschnittswerte. Unterschiede zwischen Median und Durchschnitt weisen auf ungleiche Verteilungen hin, was jedoch bei niedrigen Fallzahlen kein Wunder ist. Geordnet sind die Klubs der Größe nach dem Mittelwert.

Graphik 4

Es zeigt sich, dass einige Vereine durchaus regelmäßig bei der Trainerauswahl richtig liegen. An der Spitze liegt der SCR Altach, der wie schon gezeigt der effizienteste Klub der letzten Spielzeiten in der Liga ist und daher wenig überraschend auch diese Wertung anführt, auch weil er bisher nur einen einzigen Trainer im Untersuchungszeitraum hatte. Sollte Canadi einmal einen wohlverdienten Vertrag bei einem höheren Verein unterschreiben, wird es spannend zu beobachten, ob Altach da ein einmaliger Glücksgriff gelungen ist oder ob mehr dahintersteckt. Das kann man beispielsweise mit einiger Sicherheit schon von der Admira behaupten, die zwar auch einige Ausreißer nach unten hatte, allerdings seit Jahren mit einer der nominell schwächsten Mannschaften in der Liga verbleibt und auch immer wieder gute junge Spieler durchbringt. Auch Rapid und Ried muss man positiv erwähnen, obwohl beiden einmal im Untersuchungszeitraum ein recht grober Schnitzer passiert ist (Pacult und Kolvidsson, repräsentiert durch einzelne Punkte weit unterhalb der Boxplots). Dahinter beginnt das Mittelfeld, Klubs deren Trainer in etwa so abschnitten, wie man annehmen konnte (das sind wie wir gesehen haben auch die meisten). Dieses Mittelfeld umfasst Grödig, Sturm, Wiener Neustadt und Salzburg (das generell in all diesen Wertungen vielleicht etwas zu schlecht wegkommt, da sie nur Meisterschaftsspiele berücksichtigen, Salzburg jedoch auch im Cup und international während der letzten fünf Jahre mehr erreichte als irgendein anderer Klub der Liga).

Mit der Wiener Austria beginnen die Nachzügler. Ihre Werte sind insgesamt schon recht weit unter der Nulllinie, allerdings gelang ihr auch die Saison mit dem besten Wert über den Erwartungen. Dass ihr Peter Stöger und seine Rekordsaison jedoch eher passiert ist als dass es so geplant war, zeigen die fünf Trainer in den zweieinhalb Jahren seit seinem Abgang.

Hinter der Wiener Austria wiederum liegen die Klubs, die eindeutig zu häufig falsch lagen bei ihren Trainerentscheidungen. Vier der fünf Teams sind in der Zwischenzeit abgestiegen, das fünfte ist in akuter Abstiegsgefahr. Dass das nicht immer nur die Schuld der Trainer sein wird, zeigt das Beispiel LASK, der lediglich eine einzige Saison im Untersuchungszeitraum in der obersten Liga spielte. In dieser Spielzeit verheizte er drei Trainer, die allesamt zwischen knapp einem halben und knapp einem ganzen Punkt unter den Erwartungen lagen. Wenn alle Trainer derartig daneben liegen, könnte es durchaus noch andere Gründe für die sportliche Misere geben.

 
Graphik 5

Der LASK ist dementsprechend auch der negative Höhepunkt der letzten Graphik dieses Beitrags. Zwar hat er sowohl viele Trainer verbraucht als auch wenige Punkte geholt, allerdings das noch dazu in einem besonders hohen Ausmaß. Bei keinem anderen Verein wurden die Trainer in den letzten Jahren so schnell verschlissen wie beim LASK im Abstiegsjahr, selbst beim Trainerfriedhof in Favoriten konnten sie sich im Schnitt doppelt so lange halten (was immer noch mehr im Schnitt mehr als einen Trainerwechsel pro Saison bedeutet).

Es zeigt sich jedenfalls, dass sich richtige Entscheidungen auf dem Trainersektor, die personelle Kontinuität auf dieser Position ermöglichen, generell auszahlen. Je länger die Trainer bei einem Verein im Amt sind, desto mehr Punkte holen sie auch über dem Erwartungswert (mit Ausnahme von Mattersburg, dort ticken die Uhren offensichtlich etwas anders). Altach beispielsweise zeigt, dass man beim Festhalten am Trainer, auch wenn es zeitweise wie heuer zu Saisonbeginn punktemäßig nicht besonders gut läuft, mindestens gleich gut fährt wie mit dem Prinzip Hire and Fire (was wiederum zumindest teilweise daran liegt, dass die meisten Trainer eben keine besonders gute Punkteausbeute haben). Auch Wiener Neustadt konnte sich mit Geduld und Kontinuität lange Zeit in der obersten Liga halten und damit viele besser eingeschätzte Konkurrenten, die eher der "Logik" des Fußballgeschäfts folgten, hinter sich lassen.

Natürlich ist das nicht notwendigerweise eine derart kausale Beziehung. Es ist auch gleich denkbar, dass die Trainer im Amt bleiben, weil sie Punkte holen, und nicht Punkte holen, weil sie im Amt sind. Mit den Daten, die ich zur Verfügung habe, kann ich die Richtung des Kausalpfeils nicht determinieren, vor allem, weil eben tatsächlich oder vermeintlich schlechte Trainer frühzeitig ausgesiebt werden.

Zusammenfassend kann gesagt werden, dass Trainer durchaus eine Rolle spielen können beim Zusammenkommen der Ergebnisse der Teams, die sie betreuen. Allerdings trifft das längst nicht auf alle zu; die meisten von ihnen holen in etwa so viele Punkte, wie man von der betreuten Mannschaft auch erwarten kann (zumindest langfristig). Bei den meisten gleichen sich gute und schlechte Spielzeiten aus. Nur wenigen gelingt es, dauerhaft über den Erwartungen zu bleiben. Diese sind dann entweder langfristig beschäftigt, gehen ins Ausland oder sind zu alt (Gludovatz), um anderen Klubs, die auf Trainersuche sind, zu Hilfe zu kommen. Dies macht diese Trainersuche in einem kleinen Markt wie Österreich umso schwerer, vor allem kleine Klubs müssen dabei also innovative Strategien anwenden, um dauerhaft die Erwartungen zu übertreffen.

Montag, 15. Juni 2015

Comparing the Predictive Power of Market Value, Goalimpact and Club Elo

1. Introduction: Assessing football clubs' quality

 

Football results are extremely hard to predict. Due to the low-scoring nature of the game, surprising results are more common than in other sports, making the exact prediction of single matches' outcome increasingly difficult. On the long run however, quality tends to pay off, and better teams finish ahead of clubs with lower quality in the final classification. Although seasons with 34 or 38 matchdays as in the case of the two leagues studied hereafter are not long enough to completely rule out statistical noise and the role of coincidence and luck, tables based on them are certainly way more meaningful than single games. The fact that Barcelona were crowned Spanish champion did surely not surprise a lot of people, neither did Paderborn's relegation.

But how can the competing teams' quality be assessed? And how do these assessments transfer into predictions? There is no generally accepted measurement to examine individual players' or complete squads' footballing quality. Yet there are some intents of providing objective evaluations, which are also making their work public. Some of these are assessed in this blog entry and compared according to their ability to predict teams' performances correctly. The three measures I chose are Market Value, Goalimpact and Club Elo. The main reason for this choice was public availability and comparability over teams and leagues. These factors also ruled out all European football leagues but two, since I found data for the Goalimpact index only for the German Bundesliga and the Premier League.  The number of observations is therefore limited to 38 (18 German and 20 English clubs from the 2014/15 season).

All of them share some features, but also have some different characteristics which in turn might influence their predictive power. Goalimpact and Market Value are assessments of individual players, whose values are averaged in order to calculate a value for the total team. Averaging has the problem that it is possibly a biasing step; the value contains no information on the composition of the team, hence two teams with equal values might in fact have very different preconditions to work with. Consider the extreme examples of one team which comprises players of exactly the same quality and one which value might be driven by outliers, especially if the squad is small. Market Value and Goalimpact are on the other side more flexible indicators than Elo, since their values are altered immediately if the overall quality of a team is changed through transfers. Elo itself is in my understanding not susceptible to transfers.

Goalimpact and especially Elo are based above all on past performances, i.e. results. Results themselves are no perfect, yet acceptable predicator for future results. Goalimpact tries to overcome this issue by taking players' age and their expected peak performance into account, Elo weights results according to opposition strength, which makes them a more sound assessment of quality. The other side of the coin is that the two are at least in theory more objective than Market Values which are based on users' subjective evaluations of players' quality and their future potential, although this weakness might be overcome by the wisdom of the crowd.

In spite of these differences, the values of the three indices for the 38 clubs in the sample correlate highly with each other. As can be seen in Graph 1, the strongest correlation exists between Market Value and Goalimpact. This fact might be due to the mentioned fact that they are both based on individual players' assessments which take into account past performances but also future potential. Although the correlations of these two with Club Elo is lower, it is still quite impressive (an r² of around 0.8).

Graph 1 

In order to examine which of these three indicators works best to predict teams' sporting performances, the correlations of the respective values with the teams' points per game values are presented in the following graphs. Data therefore were gathered using the websites of the indicators. In order to avoid endogeneity, i.e. values influenced by the footballing performances themselves, timing have to be taken into account. Market Value data where therefore taken from October 2014. This value is arguably the most convincing, since it is the only one updated between the two transfer periods. Taking the value of July would bias results since a lot of transfers happened in the weeks before deadline, consider only Louis van Gaal's massive spending on the likes of Di María, Rojo and Blind, which raised Manchester United's average Market Value from 14.4 million € on July 10th to 16.4 on October 23th. Since the majority of games is played after transfer deadline, the market value after the last transfers should be a more precise predicator than an earlier one. Goalimpact data were collected from the link above, and the value taken for Club Elo was the one before the first league game of the season.

2. Which indicator works best?

 

Every of the following three graphs shows the relationship between one of the indicators (on the x-axis) and the teams' performance (points per game on the y-axis). The points are coloured differently according to the league each team belongs to; red spots represent German teems and green ones English teams. The grey shades represent 95% confidence intervals, the blue line an OLS regression. All three correlations are statistically highly significant (p<0.001 in each case).

Graph 2 shows the relationship between the Average Market Value and the sporting performance of the 38 teams during the 2014/15 season. The relationship is the second strongest and reaches an r² of 0.66. There are however also some interesting outliers: the teams which ended up highest above the regression line and outside the confidence interval are all German, meanwhile underperformers are predominantly English teams.


 Graph 2

The highest ordered teams are then again assessed with great precision and all ended within the confidence interval, i.e. they performed within the expected range of points per game. One conclusion of this might be that low-estimated teams are just as likely to over- and underperform globally, although different mechanisms seem to be at work in the two countries. The best teams perform more or less exactly as you would expect them, although some had disappointing years (Liverpool, Dortmund). Then again it is generally very unlikely to overperform if expectations are already very high; if data predicts that your team will collect around 2.2 or 2.3 points per game, there is little range to finish even better, hence we should not be too surprised that none of the high quality teams in terms of Market Value finished high above the regression line in Graph 2.

Graph 3

Goalimpact as shown in Graph 3 displays some similar characteristics, although the values are much more dispersed, i.e. standard deviation is much higher than in the case of Market Value. The level of correlation is slightly lower than in the former case and hence the lowest one of the three indicators, although the relationship is still very strong in overall terms. There is however not such a clear relationship between the league of a club and the fact that it finished better or worse than predicted; over- and underperformers are to be found in both leagues. Similarly, there is no relationship between a clubs level of Goalimpact and its over- or underperformance, as it can be found in the case of Market Value, although the differences between expected and actual performance are again higher for lower quality teams. 

Graph 4

Finally, Club Elo (see Graph 4) turned out the best predicator for final performance during the 2014/15 season in England and Germany. The correlation reaches an r² level of 0.71. The final performance in terms of points per game is well predicted especially for teams with very high and very low Elo values, although there are some mid-range teams which over- or underperformed expectations significantly (plus Chelsea, which finished far over the regression line and confidence interval).

The advantage of Club Elo over the other indicators persists even if we take all of them into one single equation. For this purpose, a multivariate regression was calculated, with all three indicators as independent variables explaining the outcome, i.e. points per game. This procedure enables us to directly compare the explanatory power of every index over the others, but also to check whether one index evens out omissions of others. Results (which are displayed in Graph 5) show that Club Elo is the only indicator which remains significant if the other two indicators are controlled for. This means that the variance of teams' performance outcomes not explained by Club Elo is likely not a result of shortcomings of the index itself, but rather due to actual over- or underperformance of teams. Note also that the adjusted r², i.e. the overall predictive power of the model, is around 0.7, which means that Market Value and Goalimpact do not offer additional predictive value.

 Graph 5

3. Which teams are the outliers?

Based on these analyses, we can take the issue to the next level and see which teams actually performed the way the underlying numbers before the season would expect them to and which ones did not. In order to do so, I took the strongest predicator Club Elo and present the difference between the predicted value of points per game and the actual points per game each team achieved (in technical terms, these differences are called residuals). Graph 6 shows each team's difference between expected and actual points per games. Teams are ordered according to the size of the difference, and dots are also coloured according to this size.

Graph 6

As can be seen, overperforming actually pays off. The highest overperformers Wolfsburg and Mönchengladbach qualified directly for the Champions League group stage. Third in the list is Chelsea, which even one the title, by collecting more than 0.3 more points per game than expected (in total terms, this accounts for 12 points more in the whole season than predicted, without which Chelsea would have finished second or third, depending on goal difference). 

On the other end, three of the four worst achievers also made it into European competitions. Dortmund will participate in the Europa League in spite of gaining a total of twenty points less than predicted. This shows that grave underachievement is a real threat for highly- but not highest assessed teams. The next underachievers were however all relegated (Freiburg, Burnley, QPR) or in severe danger (Hannover, Sunderland).

Over- or underachievement itself is in any case not related to overall season results. Consider Bayern München and Paderborn, which are among the teams with the lowest residuals. Meanwhile Bayern won the league some weeks in advance of the final matchday, Paderborn finished last and were relegated, i.e. were not able to upset predictions.

4. Conclusions


Club Elo turned out to be the best predictor for a club's league points. Does this mean that the other two indicators are worse? Well, not necessarily. The answer depends on what you are looking for. First of all, the results are just based on averages over all clubs. How one single club will finish is still not easy to predict. The fact that Club Elo has the highest correlation with points per game expresses only that the residuals, i.e. the differences between predicted and actual points, even out more than in the case of Average Market Value and Goalimpact. Secondly, if you are a bettor, you will most certainly not be interested in the average residual, but more in individual teams, for instance which team will conquer the title. In the case of the two leagues analysed here, only Average Market Value predicted both champions correctly. Meanwhile all indices assessed Bayern München as the strongest German club, Goalimpact and Club Elo saw Manchester City ahead of Chelsea. Then again, Club Elo did the best job in predicting relegated teams (four out of six; I count Hamburg as relegated, although they managed to avoid relegation through their win over Karlsruhe in the play off). The other two indicators only predicted two out of six relegated teams correctly. League position itself is also not only dependent on the performance of one particular team itself, but also on the clubs' this one is competing with. Therefore, individual final positions are an outcome even more difficult to predict. Thirdly, as stated above, Average Market Value and Goalimpact are average numbers of individual assessments. They provide information which Club Elo is completely silent about and are hence much more useful if you are looking for individual players' quality. Fourthly, a more general caveat is the sample of the analyses these results are based on. The size (38) is reasonably large to draw conclusions using methods of quantitative data analyses, although a larger size would of course be desirable. One possible but unlikely danger is that the sample is biased, i.e. the fact that only English and German teams are included influences the results of analyses. Repeating the analyses with the inclusion of clubs from more countries would therefore enlighten the question even more and make results more robust.

Tip: Click on graphs to enlarge them.