Posts mit dem Label Regression werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Regression werden angezeigt. Alle Posts anzeigen

Samstag, 23. Juli 2016

Bilanz der abgelaufenen Saison und Vorschau auf die kommende

Bereits vor einigen Wochen habe ich mich an dieser Stelle etwas eingehender mit dem Zusammenhang zwischen der wirtschaftlichen Stärke und dem sportlichen Erfolg von Fußballklubs im Allgemeinen und im Speziellen bei einer genaueren Untersuchung der Verhältnisse im österreichischen Spitzenfußball. Wir konnten dabei sehen, dass im Falle der österreichischen Budnesliga der Durchschnittsmarktwert eines Teams als Indikator für seine wirtschaftliche Stärke mehr als die Hälfte der Varianz der erreichten Punkte erklärt; sportlicher Erfolg ist also in großem Maße von den dahinterstehenden wirtschaftlichen Möglichkeiten abhängig, wird aber nicht komplett von diesen determiniert. 

Modelle, die derartige Zusammenhänge untersuchen, eignen sich auch, um Prognosen über zukünftige Leistungen herzustellen. Die Idee dahinter ist, dass ein Faktor (wie beispielsweise die wirtschaftlichen Möglichkeiten eines Klubs) hoch mit einem anderen korrelierte, wird das auch in Zukunft der Fall sein. Aufgrund der Ausprägung des ersten Faktors können wir daher mit einer gewissen Wahrscheinlichkeit diejenige des anderen (zum Beispiel Punkte am Saisonende) vorhersagen. 

Da die genaue Anzahl der Punkte sicher schwer vorherzusagen ist, ist es sinnvoll, nicht nur den prognostizierten Wert anzugeben, sondern auch Konfidenzintervalle. Diese geben den Bereich an, in dem der prognostizierte Wert mit einer gewissen Wahrscheinlichkeit (in diesem Fall 95%) liegt. Werte darunter oder darüber deuten dementsprechend eine außergewöhnlich gute oder schwache Saison an.

Graphik 1 zeigt diese Prognose für die Teams der österreichischen Bundesliga für die Saison 2015/16 (inklusive Konfidenzintervallen in Schwarz gehalten) und vergleicht diese Prognose mit den tatsächlich erreichten Punkten (die in Rot in die Graphik eingefügt sind). Geordnet sind die Teams nach ihrem tatsächlichen Abschneiden.

Graphik 1
Zu Beginn sehen wir, dass Meister Salzburg trotz gewisser sportlicher Probleme und des Verschleißes gleich dreier Cheftrainer in der ersten Saisonhälfte eine Punktlandung gelang. Man holte genau so viele Punkte wie das Modell prognostizierte. Dahinter folgen drei Teams aus Wien und Umgebung, die weit besser abschnitten als man vor der Saison annehmen konnte; alle drei liegen sogar über dem Ende ihrer Konfidenzintervalls, allen voran das Sensationsteam aus der Südstadt. Aber auch Rapid und die Austria können mit dem sportlichen Abschneiden in der Vorsaison zufrieden sein und werden Schwierigkeiten haben, in der folgenden Saison diese Punkteausbeute zu bestätigen.

Dahinter folgt mit Sturm eine der gemessen an den Erwartungen schwächsten Mannschaften der abgelaufenen Saison. Das unterdurchschnittliche Abschneiden kostete die Grazer letztlich einen Europacupplatz, damit dringend benötigte Einnahmen und kann dafür sorgen, dass man in eine Abwärtsspirale gerät (je weniger Einnahmen, desto weniger sportlicher Erfolg, desto weniger Einnahmen aus Sponsorverträgen und Europacup, etc). Die Mittelständer Wolfsberg, Ried und Altach, die während der Saison zum Teil auch erhebliche Probleme hatten, konnten sich letztlich relativ ungefährdet in der Liga halten. 

Mattersburg ist wiederum ein interessanter Fall. In meinem Modell ist es der am schwächsten abschneidende Klub, was daran liegt, dass das Modell Aufsteiger anders beurteilt als andere Teams, da diese in der Vergangenheit besser als erwartet abschnitten und deshalb das Modell durch diese Ungleichbehandlung verbessert werden konnte, was letztlich immer das Ziel ist. Es wird deshalb interessant sein, zu sehen, ob Mattersburg ein Ausreißer in der Reihe der positiven Aufsteiger der vergangenen Jahre ist oder ob diese Serie nicht doch eher dem Zufall entsprang. Allein von seinem Durchschnittsmarktwert her hat Mattersburg nämlich im Grunde die Punkteanzahl erreicht, die man vermuten könnte.

Am Tabellenende steht Grödig, das nur wenig unter der Punkteprognose landete, was letztlich aufgrund eines mangelnden anderen Underperformers aus der Gruppe der Nachzügler der Plätze 6-9 nicht zum Klassenerhalt reichte.

Den Vergleich zwischen erwartbaren und tatsächlich erreichten Punkten kann man auch  für die verantwortlichen Trainer anstellen. Unterschiede zwishen Graphik 1 und Graphik 2 ergeben sich also bei den Vereinen, die im Laufe der abgelaufenen Saison mehr als einen Trainer in Amt und Würden hatten, bei allen anderen ist das Ergebnis für den Trainer logischerweise gleich wie für den Klub insgesamt. Um die Werte vergleichbar zu machen, sind nicht mehr absolute, sondern Durchschnittswerte angegeben.

Graphik 2
Die Trainer in Graphik 2 sind nach der Anzahl an durchschnittlich geholten Punkten geordnet und nicht nach prognostizierten. Dennoch sind die drei in Salzburg tätig gewesenen Cheftrainer im Ranking ganz vorne, holten im Schnitt also am meisten Punkte. Dennoch zeigt sich, dass die Mannschaft unter Zeidler leicht unterdurchschnittlich abschnitt, weshalb seine Freistellung zumindest aufgrund der Resultate gerechtfertigt erscheint.

Danach folgen die Coaches der beiden Wiener Klubs, die wie bereits erwähnt besser als erwartet abschnitten (was die Trennung Rapids von Barisic zweifelhaft erscheinen lässt, zumindest aus sportlicher Sicht), und die Trainer der beiden positiven Überraschungen der abgelaufenen Saison, dem WAC nach dem Trainerwechsel (ein klassisches Beispiel der Regression zum Mittelwert) und der Admira.

Insgesamt zeigt sich, dass die meisten Trainer in etwa im erwartbaren Bereich abschneiden, was sich mit bisherigen Unterscuhungen deckt: Die meisten Chefcoaches haben weder einen besonders positiven noch einen besonders negativen Einfluss auf die Ergebnisse ihrer Mannschaften. Diejenigen Coaches, die jedoch die Erwartungen deutlich untererfüllen, werden meist schnell freigesetzt. Von den vier Trainern, die in der abgelaufenen Saison deutlich unter dem Konfidenzintervall liegen, überlebt nur einer (der Sonderfall Vastic) die Saison. Die anderen drei wurden bereits während der Herbstsaison entlassen.

Graphik 3
Zuletzt kann man das Modell auch heranziehen, um die Punkte für die kommende Saison zu prognostizieren (siehe Graphik 3). Allen voran ist auch diesmal wieder Meister Salzburg zu erwarten, deren unteres Ende des Konfidenzintervalls noch weit vor der Konkurrenz liegt. Das Modell sagt also mit einer 95%igen Wahrscheinlichkeit eine Titelverteidigung voraus. Dahinter folgen wie in der vergangenen Saison die beiden Wiener Vereine in der gleichen Reihenfolge wie sie auch 2015/16 abschlossen.

Dahinter folgt bereits Aufsteiger St. Pölten. Wie bereits die vergangenen Jahre bewertet das Modell den Aufsteiger besser als andere Klubs mit vergleichbarem Marktwert, da diese in den vergangenen Jahren vor Mattersburg weit besser als erwartet abschnitten. Ob diese Entwicklung bereits beendet ist oder weiterhin besteht und Mattersburg nur eine Ausnahme war, wird sich erst weisen. Das breite Konfidenzintervall zeigt auf jeden Fall, dass für die Niederösterreicher einiges drinnen ist: Ein Rückfall ins hintere Mittelfeld ist genauso drinnen wie ein Angriff auf die Europacupplätze. Nur mit dem Abstieg sollte man die nächsten beiden Saisonen nichts zu tun haben.

Dahinter folgt Sturm, das wohl wie im letzten Jahr die Europacupplätze verpassen wird. Die Einschätzung des runderneuerten Kaders lässt die Punkteprognose im Vergleich zum Vorjahr um etwa sieben Punkte zurückgehen, was nur für das Tabellenmittelfeld reichen wird. Hinter den Grazern beginnt bereits die Abstiegszone, in der sich fünf Teams innerhalb eines Bereichs von circa zwei Punkten tummeln. Die Reihenfolge innerhalb der Plätze sechs bis zehn ist also höchst unsicher, schon kurze Stärke- oder Schwächephasen können massive Auswirkungen auf das Endergebnis haben. Die Liga verspricht einen Abstiegskampf auf Messers Schneide.


Samstag, 18. Juni 2016

Was braucht Team Österreich jetzt? Ein kontrafaktisches Experiment

Nach der nicht unbedingt erwarteten, aber doch schon im Vorfeld nicht besonders unwahrscheinlichen Auftaktniederlage gegen Ungarn steht das österreichische Nationalteam bereits heute gegen Portugal mit dem Rücken zur Wand. Wenn das angepeilte Ziel Achtelfinale erreicht werden soll, muss gegen den Gruppenfavoriten unbedingt gepunktet werden, ansonsten droht ein frühes Aus oder zumindest eine unangenehme Zitterpartie gegen Island im letzten Gruppenspiel.

Wie aber schauen die Chancen auf einen Turnierverbleib nach der Gruppenphase abhängig von den Ergebnissen in den letzten beiden Spielen generell aus? Um diese Frage zu beantworten, habe ich ein kleines kontrafaktisches Experiment angestellt. Als Datengrundlage dienten mir die letzten fünf FIFA-Weltmeisterschaften, da die Simulationen auf Basis der Europameisterschaften aufgrund des geänderten Modus fragwürdig wären. Natürlich hätte man auch die WM-Turniere 1986, 1990 und 1994 als Datengrundlage verwenden können. Dies hätte den Vorteil, dass diese nach einem ähnlichen Modus wie die aktuelle Euro (sehcs Gruppen, 16 Aufsteiger in die KO-Phase) gespielt wurden. Allerdings funktionierten zwei dieser drei Endrunden nach der Zweipunkteregel. Die Änderung auf Dreipunkteregel änderte den strategischen Charakter des Spiels massiv, da es in Bezug auf die verteilten Punkte von einem Nullsummenspiel zu einem Nicht-Nullsummenspiel wurde, womit die Vergleichbarkeit fragwürdig erscheint.

Deshalb habe ich alle der fünf letzten WM-Turniere so ausgewertet, als wären sie wie die aktuelle Euro mit sechs (statt der tatsächlichen acht) Gruppen ausgespielt worden. Dabei habe ich jede mögliche Kombination der sechs aus den tatsächlichen acht Gruppen wie ein eigenständiges Turnier behandelt und untersucht, welche vier Gruppendritten aufgestiegen wären bei einem zur Euro 2016 äquivalenten Modus. Da dies pro Weltmeisterschaft 28 mögliche Kombinationen sind, ergibt sich eine Fallzahl von 140 hypothetischen Turnieren beziehungsweise 3360 Teilnehmern (5 Turniere * 28 Kombinationen * 6 Gruppen * 4 je vier Teilnehmer). Diese Stichprobe ist ausreichend, um zu prüfen, wie die konkreten Aufstiegswahrscheinlichkeiten gegeben eine gewisse Anzahl an Punkten und Tordifferenz mittels logistischen Regressionsmodellen zu schätzen.

Im ersten Fall habe ich mich nur mit dem Einfluss der erreichten Punkte auf die Wahrscheinlichkeit, das Achtelfinale entweder als Erster, Zweiter oder einer der vier besten Gruppendritten zu erreichen, beschäftigt. Diese sind im Säulendiagramm in Graphik eins dargestellt (ein Balken für funf Punkte fehlt, da Österreich diese Anzahl nicht mehr erreichen kann). Wir sehen, dass die Aufstiegswahrscheinlichkeit im Fall von vier oder sechs Punkten de facto 100 Prozent beträgt, sich man also schon sehr weit an (real natürlich nicht existierende) Sicherheiten annähert. Ein Sieg in einem der beiden verbleibenden Spiele und ein Punkt im anderen hieße also ziemlich sicher, das Achtelfinale zu erreichen. Wohlgemerkt: Dieses Modell trifft keine Ausssage darüber, ob das auf Platz 1, 2 oder 3 geschieht. Dazu später mehr.

Graphik 1
Auch wenn in den beiden verbleibenden Spielen "nur" ein Sieg gelänge und das andere verloren ginge, wäre noch längst nicht alles verloren. Mit 60% wären die Aussichten auf das Achtelfinale immer noch relativ hoch, dann allerdings umso mehr abhängig von der Tordifferenz und damit der konkreten Ergebnisse der verbleibenden Spiele. Vor diesem Hintergrund schmerzt das Kontertor zum 0:2 im ersten Spiel umso mehr, da es potentiell entscheidende Auswirkungen haben könnte.

Was ziemlich sicher nicht funktionieren wird, ist ein Aufstieg, wenn man im Turnier weiter sieglos bleibt. Bei null erreichten Punkten ist die Wahrscheinlichkeit, im Turnier zu verbleiben, logischerweise auch null. Bei einem Remis und zwei Niederlagen ist sie nur unwesentlich höher (tatsächlich geschafft hat das noch nie eine Mannschaft, aber möglich wäre es). Auch bei zwei Unentschieden müsste das Nationalteam sehr wahrscheinlich schon wieder die Heimreise antreten.

Angesichts der Tatsache, dass Österreich im Falle von zwei Unentschieden die Gruppenphase auf jeden Fall mit einer Tordifferenz von -2 abschließen würde, sinkt die Wahrscheinlichkeit für einen Aufstieg sogar noch weiter, nämlich auf 2,3%. Das liegt daran, dass man in diesem Fall noch nicht einmal fix den dritten Rang belegen würde (das hinge dann vom Ausgang der Partie Island gegen Ungarn ab) und natürlich im Vergleich zu den anderen Gruppendritten enorm schlecht dastünde. Ein Sieg mindestens ist also Pflicht.

Wie hoch sollte dieser allerdings ausgehen? Spielt die Tordifferenz dabei überhaupt eine Rolle? Dafür habe ich das Modell erweitert und aufgrund der Ergebnisse prognostiziert, wie hoch die Wahrscheinlichkeit für einen Aufstieg abhängig von der Tordifferenz gegeben eine fixe Anzahl an Punkten ist. Ich habe mich dabei auf drei beziehungsweise vier Punkte beschränkt, da mit weniger das Turnier für das Team ziemlich sicher zu Ende geht und mit mehr der Aufstieg beinahe sicher ist.

In Graphik 2 ist die Aufstiegswahrscheinlichkeit in Abhängigkeit von der Tordifferenz gesetzt den Fall, dass drei Punkte erreicht werden, dargestellt. Dafür müsste das Team also eines der Spiele gewinnen und das andere verlieren. In diesem Fall wäre die Tordifferenz von entscheidender Bedeutung. In meiner Stichprobe erreichten 483 Teams drei Punkte, von denen 280 den Aufstieg geschafft hätten (58%). Dies weist schon darauf hin, dass der Vergleich zwischen den Teams in punkte Tordifferenz (und weiter anhand der geschossenen Tore) häufig den Ausschlag gegeben hätte.

Graphik 2
Die Kurve in Graphik 2 beginnt ziemlich weit unten, steigt dann aber relativ schnell an. Eine Tordifferenz von -4 nach drei Punkten hieße ein relativ sicheres Ausscheiden aus dem Turnier. Im konkreten Fall Österreichs wäre das beispielsweise eine 0:3-Niederlage in Kombination mit einem knappen Sieg mit einem Tor Unterschied, also nicht das unwahrscheinlichste Szenario. Wenn es jedoch gelänge, dass Sieg und Niederlage mit dem gelichen Ergebnis aus Sicht des Siegerteams endeten, sähe die Sache schon sehr viel anders aus. Dann hätte das Team am Schluss eine Tordifferenz von -2 und wäre mit 50%iger Wahrscheinlichkeit im Achtelfinale. Alles, was darüber liegt, steigert die Chancen auf einen Turnierverbleib natürlich beträchtlich. Schon bei einer Endtordifferenz von -1 betragen die Chancen darauf etwa 2/3, ab einer ausgeglichenen Torbilanz wäre man beinahe sicher im Achtelfinale. Auch das weist darauf hin, dass das zweite Gegentor gegen Ungarn besonders ärgerlich war, da es ein Ausgleichen der Tordifferenz in den verbleibenden Spielen massiv erschwerte. 

Graphik 3
 Sollte Österreich es jedoch schaffen, in den verbliebenen Partein ungeschlagen zu bleiben und eine davon zu gewinnen, sind die Chancen auf das Achtelfinale beträchtlich, wie Graphik 3 zeigt. Die x-Achse beginnt hier erst bei -1, da Österreich bei diesem Szenario (ein Sieg und ein Remis) schlechtestenfalls eine um eins negative Torbilanz hätte. Allerdings kratzt die Aufstiegswahrscheinlichkeit schon in diesem Fall an 99%. In meiner Stichprobe hätten nur drei von 609 Teams, die vier Punkte erreichten, den Aufstieg nicht geschafft, also 0,5% (oder eine von zweihundert). Sollte das Team also beispielsweise heute gewinnen, stünden die Chancen auf einen Turnierverbleib bereits sehr gut. Lediglich 15% der Teams mit einem Sieg in meinem Sample hätten den Aufstieg nicht geschafft, mit zwei Siegen wäre er ohnehin fix.

Bislang haben wir uns allerdings nur mit dem Aufstieg generell befasst, also inklusive der Möglichkeit, als einer der vier besten Gruppendritten weiterzukommen. Dies ist jedoch trotz aller Wahrscheinlichkeiten eine unsichere Sache, da man dabei noch mehr von Leistungen und Ergebnissen abhängt, auf die man überhaupt keinen Einfluss hat, da sie in anderen Gruppen geschehen. In einem letzten Schritt habe ich deswegen die Wahrscheinlichkeiten für einen sicheren Aufstieg (also als Gruppenerster oder -zweiter) modelliert und in einer Heatmap dargestellt (siehe Graphik 4).

Graphik 4
Je dunkler das Blau in einem Feld ist, desto höher ist also die Wahrscheinlichkeit, mit dieser Kombination einen der beiden vordersten Plätze zu belegen. Felder, die keine Farbe haben, sind Kombinationen, die für das ÖFB-Team nicht mehr möglich sind (bei sechs Punkten hätte man beispielsweise mindestens +-0 als Tordifferenz). 

Wir sehen, dass diese relativ gering sind (unter 50%) bei allen Kombinationen der Tordifferenz mit drei Punkten. Auf einen Sieg und eine Niederlage zu setzen, ist also ein zweischneidiges Schwert. Nur 4% der Teams in meiner Stichprobe, die drei Punkte erreichten, lagen am Ende auf Platz zwei (keins auf Platz eins). Auch bei vier Punkten ist man von Sicherheit noch recht weit entfernt. Etwa die Hälfte der Teams mit vier Punkten kamen auf Platz zwei, die andere Hälfte auf Platz drei. Das steht etwas im Gegensatz zu Graphik 3, die bei vier Punkten einen beinahe sicheren Aufstieg prognostiziert. Das Paradoxon ist allerdings schnell aufgelöst: Auch wenn ein Team vier Punkte erreicht und Gruppendritter wird, ist es ziemlich sicher weiter. Lediglich drei von 294 Teams mit vier Punkten auf Platz 3 in meinem Sample (1%) hätten den Aufstieg nicht geschafft. Bei sechs Punkten könnte man sich jedoch schon relativ sicher sein, fix weiterzukommen. In meinem Sample gibt es keine Mannschaft, die mit sechs Punkten nicht als beste oder zweitbeste der Gruppe abschloss, rein technisch wäre es jedoch möglich.

Als Fazit kann man festhalten, dass die Lage der österreichischen Nationalmannschaft längst nicht so trist ist, wie sie mancherorts bereits gezeichnet wird. Das Achtelfinale liegt weiterhin absolut im Bereich des Möglichen. Notwendig dafür wird jedoch wahrscheinlich sein, keines der verbleibenden Spiele mehr zu verlieren und mindestens eins davon zu gewinnen. Sollte dies gelingen, kann man sich bereits mit möglichen Gegnern für die KO-Phase befassen.


Freitag, 10. Juni 2016

Predicting the 2016 European Championship

In their excellent book Soccernomics, Simon Kuper and Stefan Szymanski identify three principal factors which affect the sporting performance of nations. Ranking countries in various sports including association football according to the results they obtained they authors find that these are largely dependent on population size, socioeconomic development and the experience nations had made in the same sport before. The logical link between these variables and sporting success is evident; the more people there are in a country, the more talented athlets there are (assuming that talent is normally distributed). Wealth on the other side allows communities and nations to invest into infrastructure, education and development programs which enhance players and athletes to exploit their full potential. The last point, experience, is self-evident. 

Building on the logic that there are some important factors which explain past performances, one can take these variables and try to predict future ones. That is what I will demonstrate in this blog post. In order to perform the predictions, I collected data on all the teams which participated in one of the five last European championships (starting with the one in 1996). Data for population size and the level of development procede from the World Bank database. The experience gathered before the respective tournament was operationalized using countries' rank in the most recent FIFA World Raking (an imperfect measurement, I know, but I could not find anything better which is available for a reasonable period of time). In some cases (for instance the former Yugoslavian states) I had to look for information in Wikipedia or different publicly available statistics sources. This procedure left me with data on 80 nations (five tournaments with 16 participant nations each) which played 155 games among each other. Although technically speaking this is time-series cross-section modell, I considered all the observations to be independent from each other. 

Subsequently, I ran a couple of logit regressions in order to assess the probability of each nation to reach quarter-finals, semi-finals or final and to win the tournament (due to the changed number of participants I was not able to model the round of last 16 probabilities using this rather simple method). Models were varied a little, given different weighting to the factors (including the fact that a country was the host or not). Finally averages from the different models were calculated. In a further step, I modeled win, draw and lose probabilities for each game of the group stage using the same methodology. Summing up the results, I was able to identify those nations which would most likely make it to the round of the last 16 and preceded in predicting the most likely outcomes of the final stages, which well be presented later on.

The following graphes show the respective probabilites of each country to reach the final stages of the tournament according to my models. The ranking of the nations differs a bit in the various graphs due to the fact that the factors obvioulsy play different roles in the prediction of different last rounds. Especially in later stages, factors such as luck and randomness should play a more pronounced role, weakening the predictive power of objective variables. Note that the numbers in these graphs also do not take into account opposition strength.

Graph 1
Graph 1 shows the respective probabilities of each nation to reach the quarter-finals. At the top we have Belgium, the best European team in the FIFA ranking. The following countries Portugal, Spain and Germany are also among the ten best nations in the ranking. Meanwhile, Turkey benefits from a quite high population size. 

Interestingly, France has a quite low probability of surpassing the group stage and round of last 16 according to my predictions. This is most likely due to the bad performances of the hosts in the last tournaments. Neither in 2008 (Austria and Switzerland) nor in 2012 (Poland and Ukraine) did a host survive the earliest stage of the championship, which is why the value for France is most likely a bit biased.

As we can see, when it comes to the likelihood of reaching the semi-finals (graph 2), France displays the highest one. Hence, the model predicts a hard time for France in the earlier games but, if Les Bleus manage to survive them, a relatively easy quarter-final. On the other hand, smaller nations such as Belgium, Portugal and Austria would have a harder time from the round of last eight onwards, despite their good rank in the FIFA list. 
 
Graph 2

If they make it to the semi-finals, the host squad is also very likely to reach the final game. Germany has however the highest possibility to stay in the tournament until July 10th, which is not very surprising given their high population size, level of development and classification in the FIFA ranking. Spain and Belgium are not far away from France (see graph 3).

Graph 3
The probability of a host win is in any case extremely low. France is in this case punished by the fact that I only have one host team in a final in my sample, which lost it (Portugal in 2004). Due to this low number of cases, the results for France should not be overestimated. In any case, the fact that Germany, Belgium, Spain and England appear on top of the list should mean something. Again, note the quite good foresight for Turkey (in graph 4).

Graph 4
All in all, the results are not too convincing given the low number of cases they are based on (although 80 is more than you would have when predicting a national league, it is still quite low). That is why I extended the sample by not looking on teams, but individual matches, and tried to predict the most likely outcome. As usual, the model rated the possibility of a draw very low (only one draw in 36 group stages games, vis-à-vis 27 draws in 120 group stage games in my sample). This is why I corrected (increased) the draw probability in games where predictions were close.

Summing up the points, goals scored and goals conceded which predicted my models, I ended up with the following list of teams which would make it to the final stages (see graph 5). 

Graph 5
Germany and France, the nations most likely to reach the final, are expected to win all three group stage games and qualify without any worries for the final stages. Likewise, Spain, Italy, England, Belgium and Austria are to finish their groups without losing a single game. On the other hand, Hungary, Wales, Poland and Ireland will depend on the results of the other two third-finishing nations (in my predictions, Switzerland and Croatia). 

This prediction leaves me, following UEFA rules for the composition of the round of last 16 games, with the following matches:
  • Romania vs. Ukraine
  • Spain vs. Hungary
  • England vs. Poland
  • Austria vs. Italy
  • Germany vs. Wales
  • Belgium vs. Turkey
  • France vs. Ireland
  • Russia vs. Portugal
The only really tight prediction for these eight games according to my models is for Austria against Italy, in which the latter is 50.7% favorite. For all the other games, odds for the winner are at least 59% (in the case of Belgium) but rather between 70% and 90%.

Subsequently, the quarter-finals would be:
  • Romania vs. Spain
  • England vs. Italy
  • Germany vs. Belgium
  • France vs. Russia
Here again, we have one really tight game (Germany against Belgium with the probability of Germany winning only at 50.1%) and three relatively clear favourites (France, England and Spain).

Hence, the semifinals would see Spain facing and beating England (59 to 41) and France against Germany. The latter will be a close match with my models predicting a 52% chance of reaching the  final for the host team.

In the final, on average my models see Spain as favourite (at around 56%). Therefore, one could expect the Iberains to defend their title. Once again.

Montag, 15. Juni 2015

Comparing the Predictive Power of Market Value, Goalimpact and Club Elo

1. Introduction: Assessing football clubs' quality

 

Football results are extremely hard to predict. Due to the low-scoring nature of the game, surprising results are more common than in other sports, making the exact prediction of single matches' outcome increasingly difficult. On the long run however, quality tends to pay off, and better teams finish ahead of clubs with lower quality in the final classification. Although seasons with 34 or 38 matchdays as in the case of the two leagues studied hereafter are not long enough to completely rule out statistical noise and the role of coincidence and luck, tables based on them are certainly way more meaningful than single games. The fact that Barcelona were crowned Spanish champion did surely not surprise a lot of people, neither did Paderborn's relegation.

But how can the competing teams' quality be assessed? And how do these assessments transfer into predictions? There is no generally accepted measurement to examine individual players' or complete squads' footballing quality. Yet there are some intents of providing objective evaluations, which are also making their work public. Some of these are assessed in this blog entry and compared according to their ability to predict teams' performances correctly. The three measures I chose are Market Value, Goalimpact and Club Elo. The main reason for this choice was public availability and comparability over teams and leagues. These factors also ruled out all European football leagues but two, since I found data for the Goalimpact index only for the German Bundesliga and the Premier League.  The number of observations is therefore limited to 38 (18 German and 20 English clubs from the 2014/15 season).

All of them share some features, but also have some different characteristics which in turn might influence their predictive power. Goalimpact and Market Value are assessments of individual players, whose values are averaged in order to calculate a value for the total team. Averaging has the problem that it is possibly a biasing step; the value contains no information on the composition of the team, hence two teams with equal values might in fact have very different preconditions to work with. Consider the extreme examples of one team which comprises players of exactly the same quality and one which value might be driven by outliers, especially if the squad is small. Market Value and Goalimpact are on the other side more flexible indicators than Elo, since their values are altered immediately if the overall quality of a team is changed through transfers. Elo itself is in my understanding not susceptible to transfers.

Goalimpact and especially Elo are based above all on past performances, i.e. results. Results themselves are no perfect, yet acceptable predicator for future results. Goalimpact tries to overcome this issue by taking players' age and their expected peak performance into account, Elo weights results according to opposition strength, which makes them a more sound assessment of quality. The other side of the coin is that the two are at least in theory more objective than Market Values which are based on users' subjective evaluations of players' quality and their future potential, although this weakness might be overcome by the wisdom of the crowd.

In spite of these differences, the values of the three indices for the 38 clubs in the sample correlate highly with each other. As can be seen in Graph 1, the strongest correlation exists between Market Value and Goalimpact. This fact might be due to the mentioned fact that they are both based on individual players' assessments which take into account past performances but also future potential. Although the correlations of these two with Club Elo is lower, it is still quite impressive (an r² of around 0.8).

Graph 1 

In order to examine which of these three indicators works best to predict teams' sporting performances, the correlations of the respective values with the teams' points per game values are presented in the following graphs. Data therefore were gathered using the websites of the indicators. In order to avoid endogeneity, i.e. values influenced by the footballing performances themselves, timing have to be taken into account. Market Value data where therefore taken from October 2014. This value is arguably the most convincing, since it is the only one updated between the two transfer periods. Taking the value of July would bias results since a lot of transfers happened in the weeks before deadline, consider only Louis van Gaal's massive spending on the likes of Di María, Rojo and Blind, which raised Manchester United's average Market Value from 14.4 million € on July 10th to 16.4 on October 23th. Since the majority of games is played after transfer deadline, the market value after the last transfers should be a more precise predicator than an earlier one. Goalimpact data were collected from the link above, and the value taken for Club Elo was the one before the first league game of the season.

2. Which indicator works best?

 

Every of the following three graphs shows the relationship between one of the indicators (on the x-axis) and the teams' performance (points per game on the y-axis). The points are coloured differently according to the league each team belongs to; red spots represent German teems and green ones English teams. The grey shades represent 95% confidence intervals, the blue line an OLS regression. All three correlations are statistically highly significant (p<0.001 in each case).

Graph 2 shows the relationship between the Average Market Value and the sporting performance of the 38 teams during the 2014/15 season. The relationship is the second strongest and reaches an r² of 0.66. There are however also some interesting outliers: the teams which ended up highest above the regression line and outside the confidence interval are all German, meanwhile underperformers are predominantly English teams.


 Graph 2

The highest ordered teams are then again assessed with great precision and all ended within the confidence interval, i.e. they performed within the expected range of points per game. One conclusion of this might be that low-estimated teams are just as likely to over- and underperform globally, although different mechanisms seem to be at work in the two countries. The best teams perform more or less exactly as you would expect them, although some had disappointing years (Liverpool, Dortmund). Then again it is generally very unlikely to overperform if expectations are already very high; if data predicts that your team will collect around 2.2 or 2.3 points per game, there is little range to finish even better, hence we should not be too surprised that none of the high quality teams in terms of Market Value finished high above the regression line in Graph 2.

Graph 3

Goalimpact as shown in Graph 3 displays some similar characteristics, although the values are much more dispersed, i.e. standard deviation is much higher than in the case of Market Value. The level of correlation is slightly lower than in the former case and hence the lowest one of the three indicators, although the relationship is still very strong in overall terms. There is however not such a clear relationship between the league of a club and the fact that it finished better or worse than predicted; over- and underperformers are to be found in both leagues. Similarly, there is no relationship between a clubs level of Goalimpact and its over- or underperformance, as it can be found in the case of Market Value, although the differences between expected and actual performance are again higher for lower quality teams. 

Graph 4

Finally, Club Elo (see Graph 4) turned out the best predicator for final performance during the 2014/15 season in England and Germany. The correlation reaches an r² level of 0.71. The final performance in terms of points per game is well predicted especially for teams with very high and very low Elo values, although there are some mid-range teams which over- or underperformed expectations significantly (plus Chelsea, which finished far over the regression line and confidence interval).

The advantage of Club Elo over the other indicators persists even if we take all of them into one single equation. For this purpose, a multivariate regression was calculated, with all three indicators as independent variables explaining the outcome, i.e. points per game. This procedure enables us to directly compare the explanatory power of every index over the others, but also to check whether one index evens out omissions of others. Results (which are displayed in Graph 5) show that Club Elo is the only indicator which remains significant if the other two indicators are controlled for. This means that the variance of teams' performance outcomes not explained by Club Elo is likely not a result of shortcomings of the index itself, but rather due to actual over- or underperformance of teams. Note also that the adjusted r², i.e. the overall predictive power of the model, is around 0.7, which means that Market Value and Goalimpact do not offer additional predictive value.

 Graph 5

3. Which teams are the outliers?

Based on these analyses, we can take the issue to the next level and see which teams actually performed the way the underlying numbers before the season would expect them to and which ones did not. In order to do so, I took the strongest predicator Club Elo and present the difference between the predicted value of points per game and the actual points per game each team achieved (in technical terms, these differences are called residuals). Graph 6 shows each team's difference between expected and actual points per games. Teams are ordered according to the size of the difference, and dots are also coloured according to this size.

Graph 6

As can be seen, overperforming actually pays off. The highest overperformers Wolfsburg and Mönchengladbach qualified directly for the Champions League group stage. Third in the list is Chelsea, which even one the title, by collecting more than 0.3 more points per game than expected (in total terms, this accounts for 12 points more in the whole season than predicted, without which Chelsea would have finished second or third, depending on goal difference). 

On the other end, three of the four worst achievers also made it into European competitions. Dortmund will participate in the Europa League in spite of gaining a total of twenty points less than predicted. This shows that grave underachievement is a real threat for highly- but not highest assessed teams. The next underachievers were however all relegated (Freiburg, Burnley, QPR) or in severe danger (Hannover, Sunderland).

Over- or underachievement itself is in any case not related to overall season results. Consider Bayern München and Paderborn, which are among the teams with the lowest residuals. Meanwhile Bayern won the league some weeks in advance of the final matchday, Paderborn finished last and were relegated, i.e. were not able to upset predictions.

4. Conclusions


Club Elo turned out to be the best predictor for a club's league points. Does this mean that the other two indicators are worse? Well, not necessarily. The answer depends on what you are looking for. First of all, the results are just based on averages over all clubs. How one single club will finish is still not easy to predict. The fact that Club Elo has the highest correlation with points per game expresses only that the residuals, i.e. the differences between predicted and actual points, even out more than in the case of Average Market Value and Goalimpact. Secondly, if you are a bettor, you will most certainly not be interested in the average residual, but more in individual teams, for instance which team will conquer the title. In the case of the two leagues analysed here, only Average Market Value predicted both champions correctly. Meanwhile all indices assessed Bayern München as the strongest German club, Goalimpact and Club Elo saw Manchester City ahead of Chelsea. Then again, Club Elo did the best job in predicting relegated teams (four out of six; I count Hamburg as relegated, although they managed to avoid relegation through their win over Karlsruhe in the play off). The other two indicators only predicted two out of six relegated teams correctly. League position itself is also not only dependent on the performance of one particular team itself, but also on the clubs' this one is competing with. Therefore, individual final positions are an outcome even more difficult to predict. Thirdly, as stated above, Average Market Value and Goalimpact are average numbers of individual assessments. They provide information which Club Elo is completely silent about and are hence much more useful if you are looking for individual players' quality. Fourthly, a more general caveat is the sample of the analyses these results are based on. The size (38) is reasonably large to draw conclusions using methods of quantitative data analyses, although a larger size would of course be desirable. One possible but unlikely danger is that the sample is biased, i.e. the fact that only English and German teams are included influences the results of analyses. Repeating the analyses with the inclusion of clubs from more countries would therefore enlighten the question even more and make results more robust.

Tip: Click on graphs to enlarge them.

Dienstag, 30. Dezember 2014

Die eigene und die gegnerische Stärke

"Beim Fußball verkompliziert sich alles durch die Anwesenheit der gegnerischen Mannschaft."
Jean-Paul Sartre


Die Anwesenheit des Gegners verkompliziert nicht nur die Angelegenheit für die eigene Mannschaft massiv, vielmehr ist dessen Qualität und die Relation zwischen eigener und seiner Stärke der stärkste Prädikator für den Ausgang des Spiels. Auch wenn man sich als Zuschauer und Anhänger besonders gern an Spiele zurückerinnert, in denen die sich die unterlegene Mannschaft gegen einen favorisierten, vielleicht sogar übermächtigen Gegner durchsetzte: Im Normalfall gewinnt das stärkere Team, was sich auch darin manifestiert, dass der Meister am Ende der Spielzeit ein besseres zur Verfügung hatte als die sonstigen Europacupstarter, und diese wiederum bessere als Nachzügler und Absteiger.

Dennoch gibt es natürlich auch immer Ausnahmen, und in einzelnen Spielen gewonnene Vorteile können sich auch durchaus summieren, sodass niedriger eingeschätzte Teams in der Tabelle am Schluss weit vorne stehen, während favorisierte Klubs hinterherlaufen müssen. Der Wolfsberger AC in der heurigen Herbstsaison ist ein Musterbeispiel für einen solchen Klub, der die Erwartungen massiv übererfüllt und weit mehr Punkte einfuhr, als er angesichts der eigenen Qualität im Vergleich zur Stärke der anderen Teams sollte. Für diese Mannschaften gilt die Formel, die in Graphik 1 dargestellt ist, nicht mehr oder nur teilweise. 


Graphik 1

Diese Formel beschreibt die Tordifferenz, also den Ausgang eines Spiels z, als Differenz der Qualität von Mannschaft i und Mannschaft j, zuzüglich des statistischen Fehlers e. Unter diesen fällt alles, was den Ausgang eines Spieles sonst noch beeinflussen könnte, wie beispielsweise Wetter, Bodenverhältnisse, Schiedsrichterentscheidungen, oder ganz einfach Glück und Zufall. Bei den Mannschaften, die überperformen, ist also in vielen Spielen e übermäßig groß, wodurch der Einfluss von Qi und Qj auf das Ergebnis rückläufig ist.

Natürlich ist der Höhenflug des WAC beispielsweise derzeit nicht nur auf Glück und positive Schiedsrichterentscheidungen zurückzuführen. Möglich ist durchaus, dass er auch einer erhöhten Qualität der Kärntner entspricht und dementsprechend alles im Lot ist. Eine sehr gute Transferperiode weist darauf hin, dass der Kader durchaus besser geworden ist. Andererseits muss auch darauf hingewiesen werden, dass bis jetzt kein allgemein akzeptierter Indikator existiert, mittels dessen fußballerische Qualität überhaupt objektiv gemessen werden kann. Es gibt zwar einige Faktoren, die sehr stark mit Erfolg korrelieren, sowohl auf Ebene eines einzelnen Spiels als auch im Vergleich von Vereinen miteinander, allerdings sind diese immer nur Annäherungen. 

So ist beispielsweise anzunehmen, dass  sich Vereine mit höheren Budgets, die sich unter anderem darin äußern, dass man mehr Geld in Ablösesummen und Gehälter für gute Spieler investieren kann, weiter vorne in der Tabelle klassifizieren können. Allerdings ist auch das kein perfekter Indikator, aus mehreren Gründen: einerseits sind die Daten diesbezüglich oft nicht öffentlich vorhanden, oder wenn, dann nicht unbedingt miteinander vergleichbar. Dies liegt an mangelnden Transparenzvorschriften. Andererseits geht die Gleichsetzung Budget = Qualität von einer Annahme aus, die auf rationalen Akteuren mit perfekter Information beruht. Das diese nicht realistisch ist, zeigt nicht nur die wirtschaftspsychologische Forschung, sondern auch die Praxis. So dürfte in Österreich beispielsweise nie eine andere Mannschaft als RB Salzburg Meister werden, und WR. Neustadt wäre längst abgestiegen. Man kann sich der realen Qualität also nur bis zu einem gewissen Grad annähern, was allerdings ein häufiges Problem empirischer Untersuchungen ist, wenn abstrakte Konzepte in konkrete Zahlen umgewandelt werden sollen.

Im folgenden wird der Versuch unternommen, die bisherigen Spiele der Bundesligasaison auf die obige Formel hin zu überprüfen. Als Indikator für die Qualität eines Teams wird dabei jedoch nicht seine ökonomische Stärke angewandt. Nach dem Motto "Die Tabelle lügt nicht" (was natürlich zweifelsfrei so nicht stimmt, aber für dieses Anliegen tut es seinen Zweck) wird die Qualität mittels des bisherigen Abschneidens in der Tabelle gemessen. Je niedriger der Tabellenplatz in der jeweiligen Runde, desto höher die Qualität und vice versa. Deshalb wird auch die erste Runde nicht in die Analyse mitaufgenommen, da in dieser die Teams naturgemäß noch keine Platzierung hatten. Deshalb beträgt die Stichprobengröße 18 Spiele pro Team, also insgesamt 180 Untersuchungseinheiten. Dazu muss angemerkt werden, dass dies nicht ganz zulässig ist, da naturgemäß die Tordifferenzen von Mannschaft i und j in Spiel z nicht voneinander unabhängig sind, sondern einem Nullsummenspiel gemäß miteinandern korrelieren. Wenn Team i die Tordifferenz um 1 erhöht, wird gleichzeitig die von Team j um 1 gesenkt. Das Sample ist also eigentlich nur halb so groß und besteht aus Dyaden (n=90). Allerdings sind die Ergebnisse nicht signifikant anders, wenn nur ein Team pro Spiel als Untersuchungseinheit ausgewählt wird. Die Tordifferenz wird anstatt der Punkte verwendet, da diese metrisch skaliert ist und nicht nominal, was einige statistische Analysen erleichtert, beziehungsweise überhaupt erst ermöglicht. Zudem ist sie im Sample sehr schön normalverteilt, was ebenfalls von Bedeutung bei üblichen statistischen Verfahren ist.

Graphik 2 zeigt die Ergebnisse von Regressionsanalysen, wenn die eigene Platzierung eines Teams (Modell 1), und zusätzlich die der gegnerischen Mannschaft (Modell 2) auf seine Tordifferenz in Spiel z regressiert werden. Im letzten Modell wird zudem zwischen Heim- und Auswärtsmannschaft unterschieden. Es zeigt sich, dass die Variablen den angenommenen Effekt haben und zudem statistisch ausreichend signifikant sind. So schießt ein Team pro Platz, den es in der Tabelle weiter oben (=hinten) liegt, 0,2 Tore pro Spiel weniger. Dieser Effekt ist auch nicht abhängig von der gegnerischen Platzierung; zwar ist die Tordifferenz gegen stärkere Teams dementsprechend niedriger, die beiden Faktoren hängen allerdings nicht miteinander zusammen. Ein Heimteam hingegen schießt 0,85 Tore mehr als ein Auswärtsteam, wenn alle anderen Faktoren gleich sind.


Graphik 2

Die Modelle sind allerdings nicht besonders gut, was sich an den niedrigen Werten in der vorletzten Zeile, neben dem Adj. R² (adjusted R², also korrigiertes Bestimmtheitsmaß), manifestiert. Dieser Wert variiert zwischen 0 und 1 und zeigt an, wie gut das Modell die Varianz in der abhängigen Variable, also in diesem Fall der Tordifferenz in jedem Spiel, erklären kann. Je höher dieser Wert ist, desto besser ist das Modell geeignet, weil es weniger Ausreißer gibt. Werte um die 0,1 sind nicht sonderlich gut, was allerdings viel Raum für den oben angesprochenen statistischen Fehler e lässt. Es gibt also noch sonstige Faktoren, die den Ausgang eines Spiels (mit-)erklären. Wie sehr die Modelle bei der Vorhersage der Ergebnisse daneben liegen können, zeigen die Ausgänge zweier Partien in Runde 19. Sowohl Salzburg als auch Wolfsberg hätten ihre Partien gegen Rapid beziehungsweise Admira laut Vorhersage mit einem Tor Unterschied gewonnen, in Wirklichkeit jedoch mit demselben Unterschied verloren.

Dennoch sind die Erkenntnisse aus Graphik 2 nicht trivial. Wichtig zu beobachten ist, dass insgesamt der Effekt der eigenen Platzierung fast doppelt so hoch ist wie der der gegnerischen, und ein weit höheres Signifikanzniveau (99,9% statt 95%) aufweist, also mit noch viel höherer Wahrscheinlichkeit keinen zufälligen Zusammenhang beschreibt. Die eigene Stärke ist also ein wichtigerer Faktor als die gegnerische bei der Vorhersage des Ergebnisses einer Partie.

Obwohl die gegnerische Stärke also der vernachlässigbarere Faktor ist, ist sie von besonderem Interesse in diesem Beitrag, weshalb im Folgenden besonders darauf eingegangen wird. Sieht man sich lediglich den Zusammenhang zwischen der Tordifferenz und der Platzierung des Gegners in der Tabelle an (Graphik 3), so wird ersichtlich, dass dieser nicht sonderlich stark ist, wie auch in den vorgehenden Regressionsgleichungen. Lediglich knapp drei Prozent der Varianz in der Tordifferenz wird mittels der Platzierung der gegnerischen Mannschaft in der Tabelle erklärt. Allerdings ist der Zusammenhang ausreichend signifikant. 

Dieser Befund ist möglicherweise dadurch verzerrt, dass er auf Daten aus der ersten Hälfte der Meisterschaft (plus Runde 19) beruht. In dieser Phase ist die Tabelle noch nicht besonders aussagekräftig, der Zufall spielt eine noch größere Rolle bei der Platzierung einzelner Teams als über eine gesamte Saison. Die Platzierung ist deshalb ein noch schwächerer Indikator für die wahre Qualität eines Teams. Diese Verzerrungen gleichen sich unter Umständen über die gesamte Saison eher aus, weshalb eine gesamte Spielzeit eine aussagekräftigere Stichprobe ist als nur eine Herbstmeisterschaft. Wenn mit den Daten der vorgehenden Saison 2013/14 diese Analyse wiederholt wird, zeigt sich, dass der Zusammenhang tatsächlich etwas stärker ist (r² = 0,05), allerdings immer noch nicht besonders hoch. Insgesamt kann also gesagt werden, dass ein Team umso besser gegen ein anderes abschneidet, je höher (weiter hinten) dieses in der Tabelle klassifiziert ist. Allerdings gibt es auch eine Menge Spiele, in denen sich diese Tendenz nicht widerspiegelt.


Graphik 3



Diese Analyse basiert auf aggregierten Daten von allen Teams; interessant ist in diesem Zusammenhang jedoch auch, welche Klubs in etwa dem allgemeinen Muster entsprechen und welche davon abweichen. Die Analyse wurde also für jeden einzelnen Klub wiederholt und in einem ähnlichen Diagramm abgebildet (Graphik 4), allerdings nur mit linearen Regressionslinien und nicht mit den Punkten, um die Übersichtlichkeit halbwegs beizubehalten. 

Da diese Geraden auf nur jeweils 18 Datenpunkten basieren, sind die Ergebnisse jedoch einigermaßen mit Vorsicht zu genießen. Tatsächlich sind die Korrelationen, anders als beim Modell mit allen Teams, nur in zwei Fällen statistisch signifikant, nämlich bei der Wiener Austria und Grödig. Die beiden Mannschaften sind auch die mit den steilsten Linien; sie tun sich also gegen Teams auf vorderen Tabellenplätzen besonders schwer, zu punkten, und dafür umso leichter gegen Tabellennachzügler. Insgesamt passt die Hälfte der Teams ganz gut in das allgemeine Muster. Neben den beiden erwähnten Teams sind das Ried, Salzburg und Sturm. Die Admira und Rapid weisen nur ganz leicht ansteigende auf, Altach eine leicht fallende. Zwei Teams passen hingegen gar nicht hinein: Wolfsberg und Wr. Neustadt, was angesichts der Tabellenpositionen der beiden Klubs ein interessantes Ergebnis ist. Wolfsberg tut sich offensichtlich schwer, gegen Teams, die in der Tabelle weiter hinten liegen und dementsprechend auch meist tief stehende, abwartende Taktiken verfolgen, die ihrer Tabellenplatzierung entsprechenden hohen Siege herauszuschießen. Wiener Neustadt hingegen hat Probleme, in den Duellen gegen Teams, die zumindest punktemäßig in Reichweite wären, Resultate zu holen. Das könnte im Abstiegskampf zu einem veritablen Problem werden, auch wenn man gegen den Neuntplatzierten, die Admira, noch ohne Niederlage ist. Der Befund bezüglich beider Teams wird auch durch die Tatsache beeinflusst, dass Wr. Neustadt gegen Wolfsberg beide Spiele im Untersuchungszeitraum gewann. Weder gelang ihnen das gegen irgendein anderes Team noch blieb Wolfsberg gegen ein anderes Team punktelos.

.
Graphik 4

Die letzte Abbildung in diesem Beitrag erlaubt, genau nachzuvollziehen, welches Team gegen welchen Gegner Punkte geholt beziehungsweise liegen gelassen hat. Die Tordifferenz, die in den vorherigen Analysen zur Messung der sportlichen Bilanz diente, wird hier hingegen nicht berücksichtigt. Die Hintergrundfarbe in Graphik 5 entspricht den in der Zelle ausgewiesenen Punkten, also das Punktemaximun von sechs ist blau hinterlegt, null Punkte gegen ein Team hingegen rot, etc. 

Wenn man sich die beiden Teams, die dem allgemeinen Modell besonders gut entsprechen (Austria und Grödig), sowie die beiden, bei denen dies überhaupt nicht der Fall ist (Wolfsberg und Wr. Neustadt), ansieht, zeigt sich, dass die Ergebnisse der Analysen weitgehend nicht davon abhängig sind, ob Punkte oder Torverhältnisse benützt werden. Die Austria beispielsweise holte aus gegen die drei höchstplatzierten Teams in der Tabelle nur fünf von 18 möglichen Punkten (TD von -7), gegen die drei untersten hingegen elf (+7). Bei Grödig verteilen sich die Punkte zwar etwas anders, aber die Bilanz gegen die drei besten und die drei schwächsten Teams ist insgesamt gleich (fünf bzw. elf Punkte, bei gesamten Tordifferenzen von -11 und +9, wobei die erstere von der 0:8 Niederlage gegen Salzburg nach oben getrieben wird).

Wolfsberg hingegen holte gegen Wiener Neustadt gar keinen Punkt und nur jeweils drei gegen Ried und die Admira. Die Tordifferenz in den Spielen gegen diese drei Teams beträgt insgesamt -1. Gegen die direkten Tabellennachbarn Salzburg und Altach blieb man hingegen mit je einem Sieg und einem Remis ungeschlagen, auch wenn jeder Sieg nur mit einem Tor Unterschied gelang. Wiener Neustadt wiederum konnte gegen die Top Drei immerhin die Hälfte der möglichen Punkte holen (neun, bei einer interessanterweise negativen Tordifferenz von -5). Gegen die direkten Konkurrenten im Abstiegskampf Admira, Ried und Grödig allerdings blieb man mit vier von 18 möglichen Punkten meist im Hintertreffen, und schoss dabei elf Treffer weniger, als man kassierte.



Graphik 5

Die Qualität der gegnerischen Mannschaft spielt also eine Rolle beim Ergebnis, das ein Team in einer Partie erreichen kann. Allerdings ist diese kleiner als die der eigenen Qualität und unabhängig von dieser. Zusätzlich verhält es sich nicht mit allen Teams gleich; manche punkten "erwartungsgemäß", also wenig gegen vorne platzierte Teams und mehr gegen Nachzügler, während andere gar keinen Trend aufweisen und wieder andere das komplette Gegenteil zeigen. Diese Ausreißer können sowohl vorne (Wolfsberg) als auch hinten (Neustadt) in der Tabelle platziert sein, die eigene Platzierung selbst scheint dabei also keine Rolle zu spielen. Wie sich dieses Punktemuster auswirkt, also ob sich liegen gelassene Punkte gegen kleinere Teams in der Tabelle rächen, wenn sie nicht kompensiert werden, kann mittels der Daten aus einer Saison nicht beantwortet werden. Dafür müsste man mit mehr Teams aus mehreren Saisonen arbeiten, was Stoff für einen zukünftigen Beitrag ist.