Analisi Milan 2020-2021

Parte II

Nella Parte II della nostra analisi sul Milan 2020-2021 studieremo quali parametri atletici influenzano maggiormente le prestazioni della squadra. Nella prima fase di quest’analisi ci siamo concentrati sulle differenze tra 2020 e 2021, dimostrando una flessione in diversi parametri atletici. E’ bene sottolineare che il risultato “scientifico” trovato sia la presenza di tale flessione. La spiegazione da noi fornita successivamente, ossia che i dati mostrino non tanto un calo di forma fisica quanto un modificato stile di gioco, è frutto della nostra interpretazione, derivante dalla visione delle partite in esame; altri potrebbero giungere a un’interpretazione differente altrettanto valida. 

In questa fase non divideremo più i dati tra 2020 e 2021 in quanto vogliamo analizzare la squadra nel complesso, lobiettivo è di individuare quali grandezze sono maggiormente correlate alle prestazioni della squadra, sia in termini di risultati che di statistiche classiche e avanzate. 

Questa trattazione risulterà un po’ più tecnica della precedente, infatti la ricerca di correlazioni fra diversi parametri, se fatta in modo rigoroso, richiede l’utilizzo di una serie di tecniche statistiche precise. Per aiutare il lettore meno famigliare con i metodi statistici cercheremo di spiegare brevemente alcune delle tecniche utilizzate. A questo fine è importante oltretutto sottolineare che correlazione ≠ causalità (correlation does not imply causation). Infatti per correlazione tra due grandezze si intende che variazioni nei valori di una grandezza sono associati a cambiamenti nei valori dell’altra. Questo però non significa che tali variazioni siano la causa dei cambiamenti dell’altra grandezza. 

Dati

Una presentazione più approfondita dei dati è stata fornita nella Parte I. Facciamo qui un breve recap delle grandezze che tratteremo, introducendo inoltre alcuni nuovi parametri che sono però di immediata comprensione.

Prestazioni atletiche

I dati atletici che utilizzeremo nell’analisi sono stati ricavati dai match report pubblicati dalla Lega Serie A sul proprio sito al termine di ogni partita (vedi per esempio i report della Giornata 1).

    • Jog = chilometri (km) percorsi km con velocità nel range 0 – 7.92 km/h. Fascia a bassa intensità.
    • Run = km percorsi con velocità nel range 7.92 – 15.84 km/h. Media intensità.
    • Sprint = km percorsi con velocità > 15.84 km/h. Alta intensità.
    • Distanza totale = Jog + Run + Sprint
    • % Jog = Jog/Distanza totale *100
    • % Run = Run /Distanza totale *100
    • % Sprint = Sprint/Distanza totale *100
    • Distanza media-alta intensità =  Run + Sprint.
    • Velocità media (km/h).
    • Velocità media efficace (km/h) = (Run + Sprint) / (11 * tempo effettivo), dove la divisione per 11 media sul numero dei giocatori mentre il tempo effettivo è espresso in ore.  
    • Differenza distanza = distanza totale squadra – distanza totale avversario
    • Differenza distanza media alta intensità =media-alta intensità squadra – media-alta intensità avversaria.
    • Differenza velocità media = velocità media squadra – velocità media avversario.
    • Differenza velocità efficace: velocità efficace squadra – velocità efficace avversario. 
 

Expected goals

Per valutare la prestazione di una squadra, oltre a tenere ovviamente conto del risultato, del numero di gol fatti e subiti, considereremo anche gli expected goals (xG) e i non-penality expected goals (npxG). Queste due grandezze sono delle metriche che permettono di valutare la produzione offensiva di una squadra.

Per valutare in egual modo la prestazione difensiva di un team è possibile considerare gli expected goals against (xGA) e i non-penality expected goals against (npxGA), che sono rispettivamente gli xG e i npxG della squadra avversaria, che quindi valutano la qualità e la quantità delle occasioni concesse da un team, nel caso dei npxGA al netto dei rigori. La differenza tra xG e xGA darà infine un’indicazione su quale squadra ha avuto una migliore produzione offensiva.

Il modello da cui prendiamo i dati è stato sviluppato da StatsBomb. I valori dei singoli match relativi al Milan 2020-2021 possono essere trovati su  FBref.com. Riassumendo considereremo per ogni squadra i seguenti valori:

  • xG = expected goals prodotti durante la partita. 
  • xGA = expected goals prodotti dalla squadra avversaria
  • Net xG = xG – xGA. 
  • npxG = expected goals prodotti al netto dei rigori.
  • npxGA: xGA al netto dei rigori. 
  • Net npxG = npxG – npxGA. 

Metodo

I metodi che utilizzeremo nella nostra analisi saranno differenti in base alla natura delle grandezze in esame, ossia se le variabili sono quantitative, quelle che assumono valori numerici,  oppure qualitative (dette anche categoriche), i cui valori vengono espressi con valori non numerico (un esempio classico è il sesso biologico di una persona, che può assumere i valori non numerici femmina o maschio).  Nel nostro caso tutti i parametri atletici sono variabili quantitative, ogni osservazione è infatti espressa da un numero (esempio: Il Milan ha percorso 10 km in sprint in una data partita).  Nelle grandezze che utilizziamo nella valutazione delle prestazioni abbiamo invece sia variabili quantitative, ad esempio i gol segnati o gli xG, che qualitative, il fatto che una partita sia vinta o persa.  Visto che siamo interessati alle correlazioni fra parametri atletici e prestazioni avremo sempre almeno una variabile quantitativa, mai due qualitative. 

Descriviamo ora schematicamente i metodi che utilizzeremo nei due casi. 

Correlazione fra due variabili quantitative

1. Calcolo del coefficiente di Pearson per quantificare le eventuali correlazioni lineari fra le variabili.  

Il coefficiente di correlazione di Pearson, generalmente indicato con ρ, è una misura delle correlazioni lineari tra due grandezze. Il suo valore può variare tra -1 e +1, dove +1 corrisponde a una perfetta correlazione positiva, -1 a una perfetta correlazione negativa e 0 a un’assenza di correlazione. Per correlazione positiva ρ>0 si intende il fatto che incrementi di una variabile sono associati a incrementi dell’altra (se una variabile “sale” anche l’altra “sale”), viceversa una correlazione negativa significa che incrementi di una variabile sono associati a decrementi dell’altra (se una variabile “sale” l’altra “scende”). 

Possiamo distinguere diversi range di valori per valutare la forza delle correlazioni: 

  • 0 < ρ < 0.3 correlazione positiva debole
  • 0.3 < ρ < 0.7 correlazione positiva moderata
  • ρ > 0.7 correlazione positiva forte
  • – 0.3 < ρ < 0 correlazione negativa debole
  • – 0.7 < ρ < – 0.3 correlazione negativa moderata
  • ρ < – 0.7 correlazione negativa forte

2. Visualizzazione delle correlazioni tramite scatter plot dei valori assunti dalle due variabili per ogni evento, ossia ogni partita.

Uno scatter plot (o grafico di dispersione) è semplicemente un grafico in cui sugli assi abbiamo le grandezze in esame e ogni punto e’ un’osservazione delle due variabili nello stesso evento. Ad esempio se consideriamo i km totali percorsi sull’asse x e sull’asse y gli xG, ogni punto rappresenta una partita e le coordinate di tale punto sono rispettivamente i km percorsi e gli xG di quella partita. Vedremo diversi esempi nel proseguo. 

Correlazione fra una variabile quantitativa e una qualitativa

1.Test di Kruskal-Wallis tra i valori assunti dalla variabile quantitativa nelle differenti categorie della variabile qualitativa per verificare differenze statisticamente rilevanti.

Per spiegare meglio questo punto consideriamo ad esempio come variabile quantitativa la distanza percorsa e come variabile qualitativa l’esito di una partita, i cui valori possibili sono ovviamente vittoria, pareggio o sconfitta. Questi tre valori rappresentano le categorie della variabile qualitativa. Separiamo poi i valori assunti dalla variabile quantitativa, la distanza, nelle tre categorie, creando cosi tre insiemi distinti: nel primo avremo la collezione delle distanze percorse nelle partite in cui il Milan ha vinto; nel secondo le distanze relative ai pareggi e nell’ultimo i valori relativi alle sconfitte. Il test di Kruskal-Wallis ci permette quindi di verificare se l’eventuale differenza fra gli insiemi, quindi fra le distribuzioni di valori, sia statisticamente rilevante oppure se sia semplicemente frutto di casualità (precisamente il test è focalizzato sulla compatibilità fra le mediane). In particolare il test fornisce la probabilità p (p-value) che tali differenze siano dovute al caso, più è bassa p e meno è probabile che i risultati siano dovuti semplicemente al caso. Nel test si sceglie una soglia α per la probabilità, detta significatività del test, sotto la quale siamo confidenti che il test dimostri differenze statisticamente rilevanti, ossia quando p < α. Per svolgere un test corretto si presume che ogni insieme sia formato da almeno 5 elementi. 

2.Visualizzazione tramite boxplot dei valori assunti dalla variabile quantitativa per ogni categoria della variabile qualitativa. 

Un boxplot è un un metodo grafico utilizzato per rappresentare una distribuzione di valori, in cui vengono evidenziate in particolare il valore mediano, rappresentato dalla linea centrale nel box, e la variabilità dei valori, tramite la lunghezza del box e dei baffi. 

Studio delle correlazioni

Rendimento atletico vs vittorie/non vittorie

Iniziamo l’analisi delle correlazioni concentrandoci sulla relazione fra parametri atletici ed esito di una partita. Come già detto precedentemente, l’esisto di una partita è una variabile qualitativa con 3 valori possibili: vittoria, pareggio o sconfitta.

Nella stagione 2020-2021 il Milan ha giocato finora 28 partite in Serie A, conquistando 18 vittorie (64%), 5 pareggi (18%) e 5 sconfitte (18%). Siamo al limite dell’applicabilità del test di Kruskal-Wallis, che generalmente prevede almeno 5 elementi per insieme. Per tale ragione eseguiremo il test considerando sia la variabile esito con 3 valori (vittoria,pareggio,sconfitta) sia quella con 2 valori (vitttoria o non vittoria).

Il test di Kruskal-Wallis per vittoria, pareggio o sconfitta risulta positivo (p-value < 0.05) per tre parametri atletici: i km in sprint, la percentuale di km in sprint rispetto al totale e la differenza della velocità tra Milan e avversario. Di conseguenza le distribuzioni dei valori di questi parametri nelle tre diverse categorie presentano delle differenze statisticamente significative (con una bassa probabilità tali diversità sono dovute al caso), ossia almeno una distribuzione è diversa dalle altre.

Nel caso del test per vittoria/non vittoria solo il parametro della velocità relativa all’avversario è positivo al test, bassi valori del p-value sono però associati a km in sprint e percentuale di km in sprint. Viceversa è possibile vedere come la distribuzione dei valori della velocità media assoluta risulti compatibile con un’alta probabilità. 

E’ fondamentale sottolineare aspetti:

  1. un esisto negativo del test non esclude che ci siano differenze nelle distribuzioni di quel parametro (vedremo a breve un esempio in tal senso), ma tali differenze potrebbero essere date solo dalla casualità. Il p-value esprime proprio la probabilità che le distribuzioni siano dovute al caso, un basso valore, anche se sopra la soglia, indica una differenza da analizzare.  
  2. è necessaria una rappresentazione grafica per capire in quale categoria i valori sono più alti o più bassi. 

I primi grafici che consideriamo sono relativi alle tre grandezze segnalate dal primo test. Dai boxplot, a cui abbiamo aggiunto le single osservazioni, si può vedere che nei primi due parametri la categoria che si distingue è quella dei pareggi, caratterizzati da una bassa variabilità. Si vede però come il basso numero di osservazioni in due categorie renda di fatto impossibile trarre qualsiasi conclusione. Per ciò che riguarda la velocità rispetto all’avversario si può notare un trend abbastanza definito dove le partite in cui il Milan ha prevalso sono caratterizzate da un valore positivo, mentre le sconfitte da un valore quasi sempre negativo. In particolare si può notare come nelle sconfitte non sia presente un valore positivo. Anche in questo caso il basso numero di eventi ci invita alla prudenza.

Consideriamo ora i boxplot delle tre grandezze associate ai valori più bassi di p-value nel test relativo alle categorie vittoria e non-vittoria. Ricordiamo che solo la differenza nella velocità media ha p-value inferiore alla soglia di significatività del test. 

In questo caso è immediato vedere come le distribuzioni nella categoria Vittoria Milan siano caratterizzate da valori tendenzialmente più alti. E’ perciò possibile concludere che sia l’intensità (km in sprint), in termini assoluti e percentuali, che la differenza di velocità rispetto all’avversario siano grandezze correlate con le vittorie del Milan, viceversa quando intensità e velocità relativa diminuiscono il Milan ha ottenuto generalmente risultati peggiori

Gol segnati

La seconda variabile che consideriamo è quella dei gol segnati. In questo caso abbiamo una variabile quantitativa discreta e quindi procediamo innanzitutto con il calcolo delle correlazioni con il coefficiente di Pearson. 

Dai valori del coefficiente di Pearson, mostrati qui sotto, si può vedere come l’unico parametro fisico che risulta moderatamente correlato ai gol fatti è la differenza in velocità media rispetto all’avversario. 

Per visualizzare tale correlazione proponiamo uno scatter plot Differenza Velocità Media vs Gol Segnati. Per evitare problemi di overplotting abbiamo introdotto del white noise ad entrambe le variabili discrete. Abbiamo inoltre plottato anche la linea di regressione con un intervallo di confidenza al 95% (zona grigia), che mostra una correlazione positiva. Sebbene il fitting tra dati e modello sia decisamente migliorabile, la linea di regressione aiuta a visualizzare l’andamento delle correlazioni. Il modello è stato costruito con Python attraverso la libreria Seaborn. 

Dal grafico si può vedere che quando il Milan ha corso più velocemente dell’avversario ha sempre segnato almeno 2 gol.  Inoltre si può vedere chiaramente come le sconfitte si trovino tutte nella parte sinistra del grafico, dove la differenza in velocità è negativa.

Abbiamo infine considerato un boxplot con due categorie: “almeno 2 gol fatti” e  “0 oppure 1 gol fatto”. Si può vedere come la distribuzione dei valori sia differente, in particolare il Milan non ha mai segnato meno di due gol quando ha corso più velocemente dell’avversario. 

Gol subiti

Consideriamo ora la variabile gol subiti, che come i gol segnati è una variabile discreta. Come si può vedere qui sotto, la situazione è analoga alla precedente dove l’unica grandezza correlata è la differenza della velocità media. In questo caso però abbiamo una correlazione moderatamente negativa, cioè i valori più alti della velocità relativa sono associati a minor gol subiti. 

Proponiamo anche in questo caso uno scatter plot (con jitter) fra differenza in velocità e gol subiti, corredato dal un modello di regressione costruito in automatico da Seaborn, modello che  presenta un fit poco preciso su questi dati. Si può notare qui una maggiore dispersione, in particolare quando il valore della velocità relativa è 0 km/h. Questa dispersione viene confermata anche nel boxplot proposto, in cui abbiamo diviso come in precedenza le categorie. In questo caso le distribuzioni nelle due categorie risultano abbastanza simili. 

Expected goals (xgA)

Analizziamo ora la correlazione tra parametri atletici ed expected goals (xG). Dallo studio del coefficiente di Pearson è possibile vedere come diversi parametri presentino delle correlazioni con gli xG.

Riscontriamo innanzitutto una correlazione positiva con il numero di km in Jog e la percentuale di km in Jog rispetto al totale. Una buona produzione offensiva, misurata tramite gli xG, si riscontra nelle partite in cui i km a bassa intensità crescono. 

Sono invece moderatamente correlati in modo negativo i seguenti parametri: Run, %Run, Run + Sprint, Sprint, Velocità media. Il parametro più correlato negativamente risulta la percentuale di km in Run rispetto al totale percorso. 

Il quadro presentato ci fa capire che c’è una moderata correlazione generale con l’intensità durante la partita, ossia una migliore produzione offensiva risulta associata a partite in cui il ritmo è tendenzialmente più basso (alti km in Jog + bassi km in Run e Sprint). 

Dagli scatter plot Jog vs xG %Jog vs xG è possibile visualizzare la correlazione positiva tra le quantità in esame. Si può notare come al crescere dei km in Jog sia tendenzialmente associata una produzione offensiva in termini di xG migliore. La correlazione risulta leggermente più forte se consideriamo la frazione di km in Jog rispetto al totale. 

Guardiamo ora alle due quantità che sono più negativamente correlate, ossia la percentuale di km in Run e i km a media-alta intensità. Dagli scatter plot si può vedere la leggera correlazione negativa, più pronunciata nella % di km in Run. 

Expected goals against (xGA)

Valutiamo ora la correlazione tra i parametri atletici e gli expected goals against (xGA), che rappresentano una metrica per valutare le prestazioni difensive di una squadra in termini di occasioni occasioni concesse, più basso è il valore, migliore è la prestazione difensiva.  Dal calcolo del coefficiente di Pearson è possibile vedere come ci siano diversi parametri che sono correlativi negativamente agli xGA, segno che migliori prestazioni fisiche sono associate a migliori prestazioni difensive, cioè bassi xGA.

In particolare i valori che sono maggiormente correlati sono la differenza rispetto all’avverso dei km percorsi, la differenza a media-alta intensità e la differenza della velocità efficace (che per definizione è funzione della differenza ad alta-media intensità). 

Nei grafici qui sotto abbiamo considerato solo la differenza nella distanza percorsa e la differenza nella velocità efficace. Come si può vedere risulta una moderata correlazione negativa. E’ inoltre importante notare come i modelli di regressioni plottati abbiano poco accordo con i dati, segno che il fit non è buono, e servono più che altro a visualizzare un po’ più facilmente la correlazione calcolata con il coefficiente di Pearson. 

Net expected goals

Consideriamo ora la variabile Net xG definita come xG – xGA. Essendo la variabile quantitativa possiamo calcolare il coefficiente di Pearson per studiare le correlazioni con i parametri atletici. 

Come si può vedere diversi parametri presentano una moderata correlazione positiva  con la variabile in esame. In particolare quasi tutti i parametri relativi all’avversario presentano una correlazione positiva, segno che quando il Milan riesce a imporsi fisicamente sull’avversario è in grado di produrre in attacco più di quanto concede difensivamente. Guardando inoltre alle correlazioni con xG e xGA, illustrate precedentemente, è possibile vedere come questo effetto sia legato soprattutto a una miglior difesa. 

Come al solito presentiamo gli scatter plot con le due quantità che presentano la correlazione più forte. In questo caso abbiamo corredato il grafico con la differenza reti, oltre alla linea di regressione che ci aiuta a visualizzare la direzione delle correlazione. Si può notare in entrambi i casi una moderata correlazione positiva e allo stesso tempo uno scarso accordo con un modello di regressione lineare. 

Per migliorare la nostra analisi di questa variabile possiamo inoltre introdurre una variabile qualitativa avete due categorie: net xG positivo, net xG negativo. Per studiare le correlazioni in questo caso abbiamo adoperato il test di Kruskal-Wallis. Come si può vedere il test risulta positivo, ossia è presente una differenza statisticamente rilevante, per due parametri atletici: la differenza della distanza percorsa rispetto all’avversario e la differenza della velocità media. Inoltre altre categorie nei parametri relativi all’avversario sono molto vicine alla soglia, segno che c’è una bassa probabilità che tali differenze siano dovute semplicemente al caso. 

E’ importante notare come la percentuale dei km in Jog risulti invece compatibile nei due gruppi. Precedentemente avevamo mostrato come tale parametro era moderatamente correlato con gli xG. Questo nuovo risultato non è in contrasto con il precedente ma significa che considerando anche gli xGA il peso dei km a bassa intensità viene ridotto, restando però importante per la produzione offensiva.

Per studiare le distribuzioni delle grandezze risultate positive al test consideriamo i boxplot nelle due categorie della variabile qualitativa Net xG. Come si può vedere dai grafici le distribuzioni presentano dei valori fisici tendenzialmente più alti in riferimento a Net xG positivi. In particolare si può notare come in nessuna partita con Net xG negativo il Milan sia andato più velocemente dell’avversario. E’ importante notare che non vale il viceversa, ossia ci sono state partite con Net xG > 0 ma velocità relativa negativa. 

Non-penalty expected goals (npxG)

Consideriamo ora i non-penalty expected goals, una metrica che permette di valutare la produzione offensiva al netto dei rigori. Come per gli xG, la variabile npxG è quantitativa. 

Dall’analisi delle correlazioni con il coefficiente di Pearson è possibile ricavare che i npxG sono positivamente correlati con il numero dei km in Jog e la percentuale in Jog rispetto al totale. Questo conferma ciò che aveva visto nel caso degli xG. Poca correlazione è presente anche con la differenza nella distanza percorsa. Sono inoltre rilevabili delle correlazioni negative con la percentuale dei km in Run e la velocità media efficace. 

Per visualizzare le correlazioni abbiamo considerato degli scatter plot per %Jog e la %Run, che sono rispettivamente la variabile più correlata positivamente e quella più correlata negativamente. Si vede anche in questo caso come un modello di regressione lineare sia poco in accordo con i dati. 

Non-penality expected goals against (npxGA)

Consideriamo ora i non-penality expected goals against (npxGA) per valutare le prestazioni difensive al netto dei rigori.

Dall’analisi delle correlazioni è possibile notare come diversi parametri atletici siano negativamente correlati ai npxGA, e quindi correlati positivamente a una buona prestazione difensiva. In particolare le correlazioni maggiori risultato nei parametri rispetto all’avversario per ciò che riguarda la distanza relativa, la distanza relativa in Run + sprint e la differenza nella velocità efficace. 

In questo abbiamo scelto di presentare gli scatter plot della differenza nei km totali rispetto all’avversario e della differenza nella velocità efficace. Si può notare una correlazione negativa in entrambi i casi. Anche in questo l’accordo con il modello di regressione lineare è trascurabile. 

Net non-penalty expected goals

Consideriamo ora la differenza tra npxG e npxGA per valutare la prestazione complessiva della squadra in termini di statistiche avanzate al netto dei rigori. Innanzitutto trattiamo la variabile come quantitativa e calcoliamo il coefficiente di Pearson con i parametri atletici. 

Dall’analisi delle correlazioni si può notare come la variabile abbia una moderata correlazione positiva con i seguenti parametri fisici: la distanza percorsa rispetto all’avversario, la differenza in Run + Sprint e la differenza nella velocità efficace. Quando il Milan riesce a percorrere più km rispetto all’avversario, soprattutto se km ad alta-media intensità, produce più occasioni dell’avversario. 

Dagli scatter plot relativi  alla differenza nella distanza percorsa rispetto all’avversario e alla differenza nella velocità efficace la correlazione positiva è abbastanza evidente. Inoltre è possibile vedere come in questo caso il modello di regressione lineare presentato risulta leggermente più in accordo con i dati, soprattutto per il primo scatter plot. 

Per approfondire l’analisi abbiamo costruito una variabile qualitativa come avevamo fatto per il Net xG, separando quindi due categorie: Net npxG >0 e Net npxG <0. Così facendo è poi possibile eseguire un test di Kruskal-Wallis per individuare quali grandezze si differenziano nelle due categorie. 

Dai risultati del test è possibile notare come quattro grandezze presentino delle differenze statisticamente significative nelle due categorie. E’ interessante in particolare notare come tutte e quattro siano parametri relativi all’avversario. 

Il test di Kruskal-Wallis certifica soltanto delle differenze nelle distribuzioni, per avere un’idea dei cambiamenti è necessario guardare alle distribuzioni. Il metodo scelto è come al solito quello dei boxplot, da cui è possibile vedere come in tutte le categorie (ne abbiamo considerate tre: differenza distanza, differenza media-alta intensità e differenza velocità media) parametri fisici migliori siano associati alla categoria Net xG > 0, quindi a partite in cui il Milan ha prodotto più occasioni dell’avversario. 

Conclusioni

Recap correlazioni (moderate) 

Esito partita: correlazione positiva con: Sprint, %Sprint/ Differenza velocità media (da Kruskal-Wallis)

Gol fatti: correlazione positiva con Differenza velocità media.  Se Differenza velocità > 0 allora almeno 2 gol segnati.   

Gol subiti: correlazione negativa con Differenza velocità media. 

xG: correlazione positiva con Jog, %Jog. Correlazione negativa con Run, %Run, Run+Sprint, %Sprint, Velocità media assoluta. 

xGA: correlazione negativa con Distanza totale, Run, Run + Sprint, Differenza distanza totale, Differenza km Run + Sprint, Differenza velocità efficace. 

Net xG: correlazione positiva con Jog, Differenza distanza totale, Differenza Run + Sprint, Differenza velocità media, differenza velocità efficace. 

npxG:  correlazione positiva con Jog, %Jog e distanza totale. Correlazione negativa con %Run e Velocità efficace.

npxGA: correlazione negativa con Distanza totale, Run, Differenza distanza totale, differenza Run + Sprint, differenza velocità efficace. 

Net npxG: correlazione positiva con Differenza distanza totale, Differenza Run + Sprint, Differenza Velocità efficace, Differenza Velocità Media (da Kruskal-Wallis)

Dal quadro mostrato la prima conclusione che possiamo trarre è che i parametri atletici più importanti sono quelli in confronto all’avversario, si può infatti vedere come i parametri assoluti siano presenti con una frequenza notevolmente ridotta.

Il parametro che risulta più presente è la differenza nella velocità media, che quindi sembra essere la grandezza più importante tra quelle esaminate

Se guardiamo alla prestazione complessiva (misurata da Esito partita, Net xG, Net npxG) si può vedere come migliori parametri atletici rispetto all’avversario siano correlati a risultati migliori. Ciò dimostra come il Milan tenda a giocare meglio quando riesce a prevalere sull’avversario dal punto di vista fisico, in particolare in termini di velocità media, per ciò che riguardo il risultato.

Dal punto di vista offensivo (gol, fatti, xG e npxG) la squadra mostra performance migliori se riesce ad avere una velocità superiore all’avversario e allo stesso tempo ad avere un alto numero di km in Jog rispetto al totale. L’interpretazione che possiamo ricavarne è di una squadra che si trova a suo agio dal punto di vista offensivo quando è in grado di abbassare il ritmo durante la partita (alta %Jog) e allo stesso tempo essere mediamente più veloce dell’avversario. Viceversa, vista la correlazione negativa tra xG e %Run e velocità media assoluta, peggiori performance offensive sembrano essere associate a partite in cui il ritmo complessivo è mediamente più alto ( teniamo conto che i km in Run costituiscono la frazione nettamente più importante, circa con una media del 65% sui km totali). Sarà interessante studiare successivamente una correlazione tra Jog e possesso palla, in modo da capire se elevate % Jog (ritmi mediamente più bassi) siano una scelta del Milan quando possiede il controllo del pallone. 

Dal punto di vista difensivo (gol subiti, xGA e npxGA) si registrano prestazioni migliori (correlazione negativa con i parametri) quando il Milan corre semplicemente di più dell’avversario, possiamo pensare che riesca a ridurre al meglio gli spazi, oppure quando corre più velocemente

Guardando anche ai risultati ottenuti nella Parte I della nostra analisi, possiamo concludere che i parametri atletici siano moderatamente correlati ai risultati della squadra. Il quadro generale, come già accennato nella Parte I, fa però pensare più a una mancanza di controllo del Milan sulla partita che non a una forma fisica precaria (perché i valori assoluti sono compatibili nei due periodi analizzati e non differenziano molto i risultati).

La nostra interpretazione è che il mancato controllo della partita, soprattutto dal punto di vista del ritmo, a portato la squadra a giocare match in condizioni in cui è meno performante offensivamente (il calo tra 2020 e 2021 è soprattutto offensivo), cioè alto ritmo di base (bassa %Jog,), e avversario che ha la possibilità di andare più velocemente in quanto gli viene concesso uno spazio maggiore da attaccare per via di un pressing non accurato.

Nel proseguo ci proponiamo di analizzare i seguenti temi:

  • Confronto tra i dati sul possesso palla e %Jog, xG. 
  • Confronto tra parametri atletici e metriche difensive (in particolare legate al pressing. Esempio: Passes allowed per Defensive Action)
  • Confronto tra dati atletici Serie A e numero di infortuni per squadra.

Vorrei infine ringraziare il mio amico Daniele Pennacchia (a.k.a. ilMago) per i numerosi consigli che mi ha fornito durante lo sviluppo di questa doppia analisi. 

Alberto Riccardi

Per commenti, suggerimenti o critiche: 

gamazup@gmail.com