Samstag, 18. Juni 2016

Was braucht Team Österreich jetzt? Ein kontrafaktisches Experiment

Nach der nicht unbedingt erwarteten, aber doch schon im Vorfeld nicht besonders unwahrscheinlichen Auftaktniederlage gegen Ungarn steht das österreichische Nationalteam bereits heute gegen Portugal mit dem Rücken zur Wand. Wenn das angepeilte Ziel Achtelfinale erreicht werden soll, muss gegen den Gruppenfavoriten unbedingt gepunktet werden, ansonsten droht ein frühes Aus oder zumindest eine unangenehme Zitterpartie gegen Island im letzten Gruppenspiel.

Wie aber schauen die Chancen auf einen Turnierverbleib nach der Gruppenphase abhängig von den Ergebnissen in den letzten beiden Spielen generell aus? Um diese Frage zu beantworten, habe ich ein kleines kontrafaktisches Experiment angestellt. Als Datengrundlage dienten mir die letzten fünf FIFA-Weltmeisterschaften, da die Simulationen auf Basis der Europameisterschaften aufgrund des geänderten Modus fragwürdig wären. Natürlich hätte man auch die WM-Turniere 1986, 1990 und 1994 als Datengrundlage verwenden können. Dies hätte den Vorteil, dass diese nach einem ähnlichen Modus wie die aktuelle Euro (sehcs Gruppen, 16 Aufsteiger in die KO-Phase) gespielt wurden. Allerdings funktionierten zwei dieser drei Endrunden nach der Zweipunkteregel. Die Änderung auf Dreipunkteregel änderte den strategischen Charakter des Spiels massiv, da es in Bezug auf die verteilten Punkte von einem Nullsummenspiel zu einem Nicht-Nullsummenspiel wurde, womit die Vergleichbarkeit fragwürdig erscheint.

Deshalb habe ich alle der fünf letzten WM-Turniere so ausgewertet, als wären sie wie die aktuelle Euro mit sechs (statt der tatsächlichen acht) Gruppen ausgespielt worden. Dabei habe ich jede mögliche Kombination der sechs aus den tatsächlichen acht Gruppen wie ein eigenständiges Turnier behandelt und untersucht, welche vier Gruppendritten aufgestiegen wären bei einem zur Euro 2016 äquivalenten Modus. Da dies pro Weltmeisterschaft 28 mögliche Kombinationen sind, ergibt sich eine Fallzahl von 140 hypothetischen Turnieren beziehungsweise 3360 Teilnehmern (5 Turniere * 28 Kombinationen * 6 Gruppen * 4 je vier Teilnehmer). Diese Stichprobe ist ausreichend, um zu prüfen, wie die konkreten Aufstiegswahrscheinlichkeiten gegeben eine gewisse Anzahl an Punkten und Tordifferenz mittels logistischen Regressionsmodellen zu schätzen.

Im ersten Fall habe ich mich nur mit dem Einfluss der erreichten Punkte auf die Wahrscheinlichkeit, das Achtelfinale entweder als Erster, Zweiter oder einer der vier besten Gruppendritten zu erreichen, beschäftigt. Diese sind im Säulendiagramm in Graphik eins dargestellt (ein Balken für funf Punkte fehlt, da Österreich diese Anzahl nicht mehr erreichen kann). Wir sehen, dass die Aufstiegswahrscheinlichkeit im Fall von vier oder sechs Punkten de facto 100 Prozent beträgt, sich man also schon sehr weit an (real natürlich nicht existierende) Sicherheiten annähert. Ein Sieg in einem der beiden verbleibenden Spiele und ein Punkt im anderen hieße also ziemlich sicher, das Achtelfinale zu erreichen. Wohlgemerkt: Dieses Modell trifft keine Ausssage darüber, ob das auf Platz 1, 2 oder 3 geschieht. Dazu später mehr.

Graphik 1
Auch wenn in den beiden verbleibenden Spielen "nur" ein Sieg gelänge und das andere verloren ginge, wäre noch längst nicht alles verloren. Mit 60% wären die Aussichten auf das Achtelfinale immer noch relativ hoch, dann allerdings umso mehr abhängig von der Tordifferenz und damit der konkreten Ergebnisse der verbleibenden Spiele. Vor diesem Hintergrund schmerzt das Kontertor zum 0:2 im ersten Spiel umso mehr, da es potentiell entscheidende Auswirkungen haben könnte.

Was ziemlich sicher nicht funktionieren wird, ist ein Aufstieg, wenn man im Turnier weiter sieglos bleibt. Bei null erreichten Punkten ist die Wahrscheinlichkeit, im Turnier zu verbleiben, logischerweise auch null. Bei einem Remis und zwei Niederlagen ist sie nur unwesentlich höher (tatsächlich geschafft hat das noch nie eine Mannschaft, aber möglich wäre es). Auch bei zwei Unentschieden müsste das Nationalteam sehr wahrscheinlich schon wieder die Heimreise antreten.

Angesichts der Tatsache, dass Österreich im Falle von zwei Unentschieden die Gruppenphase auf jeden Fall mit einer Tordifferenz von -2 abschließen würde, sinkt die Wahrscheinlichkeit für einen Aufstieg sogar noch weiter, nämlich auf 2,3%. Das liegt daran, dass man in diesem Fall noch nicht einmal fix den dritten Rang belegen würde (das hinge dann vom Ausgang der Partie Island gegen Ungarn ab) und natürlich im Vergleich zu den anderen Gruppendritten enorm schlecht dastünde. Ein Sieg mindestens ist also Pflicht.

Wie hoch sollte dieser allerdings ausgehen? Spielt die Tordifferenz dabei überhaupt eine Rolle? Dafür habe ich das Modell erweitert und aufgrund der Ergebnisse prognostiziert, wie hoch die Wahrscheinlichkeit für einen Aufstieg abhängig von der Tordifferenz gegeben eine fixe Anzahl an Punkten ist. Ich habe mich dabei auf drei beziehungsweise vier Punkte beschränkt, da mit weniger das Turnier für das Team ziemlich sicher zu Ende geht und mit mehr der Aufstieg beinahe sicher ist.

In Graphik 2 ist die Aufstiegswahrscheinlichkeit in Abhängigkeit von der Tordifferenz gesetzt den Fall, dass drei Punkte erreicht werden, dargestellt. Dafür müsste das Team also eines der Spiele gewinnen und das andere verlieren. In diesem Fall wäre die Tordifferenz von entscheidender Bedeutung. In meiner Stichprobe erreichten 483 Teams drei Punkte, von denen 280 den Aufstieg geschafft hätten (58%). Dies weist schon darauf hin, dass der Vergleich zwischen den Teams in punkte Tordifferenz (und weiter anhand der geschossenen Tore) häufig den Ausschlag gegeben hätte.

Graphik 2
Die Kurve in Graphik 2 beginnt ziemlich weit unten, steigt dann aber relativ schnell an. Eine Tordifferenz von -4 nach drei Punkten hieße ein relativ sicheres Ausscheiden aus dem Turnier. Im konkreten Fall Österreichs wäre das beispielsweise eine 0:3-Niederlage in Kombination mit einem knappen Sieg mit einem Tor Unterschied, also nicht das unwahrscheinlichste Szenario. Wenn es jedoch gelänge, dass Sieg und Niederlage mit dem gelichen Ergebnis aus Sicht des Siegerteams endeten, sähe die Sache schon sehr viel anders aus. Dann hätte das Team am Schluss eine Tordifferenz von -2 und wäre mit 50%iger Wahrscheinlichkeit im Achtelfinale. Alles, was darüber liegt, steigert die Chancen auf einen Turnierverbleib natürlich beträchtlich. Schon bei einer Endtordifferenz von -1 betragen die Chancen darauf etwa 2/3, ab einer ausgeglichenen Torbilanz wäre man beinahe sicher im Achtelfinale. Auch das weist darauf hin, dass das zweite Gegentor gegen Ungarn besonders ärgerlich war, da es ein Ausgleichen der Tordifferenz in den verbleibenden Spielen massiv erschwerte. 

Graphik 3
 Sollte Österreich es jedoch schaffen, in den verbliebenen Partein ungeschlagen zu bleiben und eine davon zu gewinnen, sind die Chancen auf das Achtelfinale beträchtlich, wie Graphik 3 zeigt. Die x-Achse beginnt hier erst bei -1, da Österreich bei diesem Szenario (ein Sieg und ein Remis) schlechtestenfalls eine um eins negative Torbilanz hätte. Allerdings kratzt die Aufstiegswahrscheinlichkeit schon in diesem Fall an 99%. In meiner Stichprobe hätten nur drei von 609 Teams, die vier Punkte erreichten, den Aufstieg nicht geschafft, also 0,5% (oder eine von zweihundert). Sollte das Team also beispielsweise heute gewinnen, stünden die Chancen auf einen Turnierverbleib bereits sehr gut. Lediglich 15% der Teams mit einem Sieg in meinem Sample hätten den Aufstieg nicht geschafft, mit zwei Siegen wäre er ohnehin fix.

Bislang haben wir uns allerdings nur mit dem Aufstieg generell befasst, also inklusive der Möglichkeit, als einer der vier besten Gruppendritten weiterzukommen. Dies ist jedoch trotz aller Wahrscheinlichkeiten eine unsichere Sache, da man dabei noch mehr von Leistungen und Ergebnissen abhängt, auf die man überhaupt keinen Einfluss hat, da sie in anderen Gruppen geschehen. In einem letzten Schritt habe ich deswegen die Wahrscheinlichkeiten für einen sicheren Aufstieg (also als Gruppenerster oder -zweiter) modelliert und in einer Heatmap dargestellt (siehe Graphik 4).

Graphik 4
Je dunkler das Blau in einem Feld ist, desto höher ist also die Wahrscheinlichkeit, mit dieser Kombination einen der beiden vordersten Plätze zu belegen. Felder, die keine Farbe haben, sind Kombinationen, die für das ÖFB-Team nicht mehr möglich sind (bei sechs Punkten hätte man beispielsweise mindestens +-0 als Tordifferenz). 

Wir sehen, dass diese relativ gering sind (unter 50%) bei allen Kombinationen der Tordifferenz mit drei Punkten. Auf einen Sieg und eine Niederlage zu setzen, ist also ein zweischneidiges Schwert. Nur 4% der Teams in meiner Stichprobe, die drei Punkte erreichten, lagen am Ende auf Platz zwei (keins auf Platz eins). Auch bei vier Punkten ist man von Sicherheit noch recht weit entfernt. Etwa die Hälfte der Teams mit vier Punkten kamen auf Platz zwei, die andere Hälfte auf Platz drei. Das steht etwas im Gegensatz zu Graphik 3, die bei vier Punkten einen beinahe sicheren Aufstieg prognostiziert. Das Paradoxon ist allerdings schnell aufgelöst: Auch wenn ein Team vier Punkte erreicht und Gruppendritter wird, ist es ziemlich sicher weiter. Lediglich drei von 294 Teams mit vier Punkten auf Platz 3 in meinem Sample (1%) hätten den Aufstieg nicht geschafft. Bei sechs Punkten könnte man sich jedoch schon relativ sicher sein, fix weiterzukommen. In meinem Sample gibt es keine Mannschaft, die mit sechs Punkten nicht als beste oder zweitbeste der Gruppe abschloss, rein technisch wäre es jedoch möglich.

Als Fazit kann man festhalten, dass die Lage der österreichischen Nationalmannschaft längst nicht so trist ist, wie sie mancherorts bereits gezeichnet wird. Das Achtelfinale liegt weiterhin absolut im Bereich des Möglichen. Notwendig dafür wird jedoch wahrscheinlich sein, keines der verbleibenden Spiele mehr zu verlieren und mindestens eins davon zu gewinnen. Sollte dies gelingen, kann man sich bereits mit möglichen Gegnern für die KO-Phase befassen.


Freitag, 10. Juni 2016

Predicting the 2016 European Championship

In their excellent book Soccernomics, Simon Kuper and Stefan Szymanski identify three principal factors which affect the sporting performance of nations. Ranking countries in various sports including association football according to the results they obtained they authors find that these are largely dependent on population size, socioeconomic development and the experience nations had made in the same sport before. The logical link between these variables and sporting success is evident; the more people there are in a country, the more talented athlets there are (assuming that talent is normally distributed). Wealth on the other side allows communities and nations to invest into infrastructure, education and development programs which enhance players and athletes to exploit their full potential. The last point, experience, is self-evident. 

Building on the logic that there are some important factors which explain past performances, one can take these variables and try to predict future ones. That is what I will demonstrate in this blog post. In order to perform the predictions, I collected data on all the teams which participated in one of the five last European championships (starting with the one in 1996). Data for population size and the level of development procede from the World Bank database. The experience gathered before the respective tournament was operationalized using countries' rank in the most recent FIFA World Raking (an imperfect measurement, I know, but I could not find anything better which is available for a reasonable period of time). In some cases (for instance the former Yugoslavian states) I had to look for information in Wikipedia or different publicly available statistics sources. This procedure left me with data on 80 nations (five tournaments with 16 participant nations each) which played 155 games among each other. Although technically speaking this is time-series cross-section modell, I considered all the observations to be independent from each other. 

Subsequently, I ran a couple of logit regressions in order to assess the probability of each nation to reach quarter-finals, semi-finals or final and to win the tournament (due to the changed number of participants I was not able to model the round of last 16 probabilities using this rather simple method). Models were varied a little, given different weighting to the factors (including the fact that a country was the host or not). Finally averages from the different models were calculated. In a further step, I modeled win, draw and lose probabilities for each game of the group stage using the same methodology. Summing up the results, I was able to identify those nations which would most likely make it to the round of the last 16 and preceded in predicting the most likely outcomes of the final stages, which well be presented later on.

The following graphes show the respective probabilites of each country to reach the final stages of the tournament according to my models. The ranking of the nations differs a bit in the various graphs due to the fact that the factors obvioulsy play different roles in the prediction of different last rounds. Especially in later stages, factors such as luck and randomness should play a more pronounced role, weakening the predictive power of objective variables. Note that the numbers in these graphs also do not take into account opposition strength.

Graph 1
Graph 1 shows the respective probabilities of each nation to reach the quarter-finals. At the top we have Belgium, the best European team in the FIFA ranking. The following countries Portugal, Spain and Germany are also among the ten best nations in the ranking. Meanwhile, Turkey benefits from a quite high population size. 

Interestingly, France has a quite low probability of surpassing the group stage and round of last 16 according to my predictions. This is most likely due to the bad performances of the hosts in the last tournaments. Neither in 2008 (Austria and Switzerland) nor in 2012 (Poland and Ukraine) did a host survive the earliest stage of the championship, which is why the value for France is most likely a bit biased.

As we can see, when it comes to the likelihood of reaching the semi-finals (graph 2), France displays the highest one. Hence, the model predicts a hard time for France in the earlier games but, if Les Bleus manage to survive them, a relatively easy quarter-final. On the other hand, smaller nations such as Belgium, Portugal and Austria would have a harder time from the round of last eight onwards, despite their good rank in the FIFA list. 
 
Graph 2

If they make it to the semi-finals, the host squad is also very likely to reach the final game. Germany has however the highest possibility to stay in the tournament until July 10th, which is not very surprising given their high population size, level of development and classification in the FIFA ranking. Spain and Belgium are not far away from France (see graph 3).

Graph 3
The probability of a host win is in any case extremely low. France is in this case punished by the fact that I only have one host team in a final in my sample, which lost it (Portugal in 2004). Due to this low number of cases, the results for France should not be overestimated. In any case, the fact that Germany, Belgium, Spain and England appear on top of the list should mean something. Again, note the quite good foresight for Turkey (in graph 4).

Graph 4
All in all, the results are not too convincing given the low number of cases they are based on (although 80 is more than you would have when predicting a national league, it is still quite low). That is why I extended the sample by not looking on teams, but individual matches, and tried to predict the most likely outcome. As usual, the model rated the possibility of a draw very low (only one draw in 36 group stages games, vis-à-vis 27 draws in 120 group stage games in my sample). This is why I corrected (increased) the draw probability in games where predictions were close.

Summing up the points, goals scored and goals conceded which predicted my models, I ended up with the following list of teams which would make it to the final stages (see graph 5). 

Graph 5
Germany and France, the nations most likely to reach the final, are expected to win all three group stage games and qualify without any worries for the final stages. Likewise, Spain, Italy, England, Belgium and Austria are to finish their groups without losing a single game. On the other hand, Hungary, Wales, Poland and Ireland will depend on the results of the other two third-finishing nations (in my predictions, Switzerland and Croatia). 

This prediction leaves me, following UEFA rules for the composition of the round of last 16 games, with the following matches:
  • Romania vs. Ukraine
  • Spain vs. Hungary
  • England vs. Poland
  • Austria vs. Italy
  • Germany vs. Wales
  • Belgium vs. Turkey
  • France vs. Ireland
  • Russia vs. Portugal
The only really tight prediction for these eight games according to my models is for Austria against Italy, in which the latter is 50.7% favorite. For all the other games, odds for the winner are at least 59% (in the case of Belgium) but rather between 70% and 90%.

Subsequently, the quarter-finals would be:
  • Romania vs. Spain
  • England vs. Italy
  • Germany vs. Belgium
  • France vs. Russia
Here again, we have one really tight game (Germany against Belgium with the probability of Germany winning only at 50.1%) and three relatively clear favourites (France, England and Spain).

Hence, the semifinals would see Spain facing and beating England (59 to 41) and France against Germany. The latter will be a close match with my models predicting a 52% chance of reaching the  final for the host team.

In the final, on average my models see Spain as favourite (at around 56%). Therefore, one could expect the Iberains to defend their title. Once again.