Tra gli appassionati di calcio, è un fenomeno comune per ogni tifoso mostrare e affermare la propria abilità di allenatore, soprattutto all'indomani di una partita deludente. I tifosi trascorrono innumerevoli ore in discussioni appassionate, sviscerando le prestazioni dei giocatori, criticando le decisioni tattiche e approfondendo gli episodi di gioco controversi. Sebbene la maggior parte delle opinioni si basi esclusivamente sulle prestazioni della squadra nel fine settimana, questa passione e questa controversia contribuiscono all'immensa popolarità del calcio, ma allo stesso tempo ne rendono difficile un'analisi obiettiva.
Dato il gran numero di stili di gioco e di tattiche di gioco, vediamo sempre nuovi modi creativi di approcciarsi al gioco. Al di là degli animati “dibattiti da pub”, gli esperti di calcio sono ora interessati a fatti oggettivi sui loro giocatori e avversari per prendere decisioni informate, personalizzate e tempestive e aumentare le loro possibilità di successo. È qui che entra in gioco l'analisi dei dati.
L'obiettivo principale dell'analisi calcistica è quello di valutare in modo completo e oggettivo le prestazioni dei giocatori attraverso un esame meticoloso dei dati relativi agli eventi delle partite. Questo processo non solo mette in evidenza gli alti e i bassi percepibili delle prestazioni eccellenti e di quelle insufficienti, ma offre anche approfondimenti sfumati su giocatori che potrebbero non attirare molta attenzione a causa dei loro ruoli o incarichi specifici sul campo.
Tuttavia, navigare nel panorama dell'analisi del calcio presenta sfide che non possono essere facilmente trascurate. Alcune delle sfide principali sono:
1)Pregiudizio offensivo: Poiché l'obiettivo primario del calcio è segnare più gol degli avversari, i dati degli eventi sono prevalentemente orientati verso le azioni offensive. Ciò comporta un notevole squilibrio tra statistiche offensive e difensive.
2)Ruoli e statistiche dei giocatori: I giocatori offensivi sono spesso considerati giocatori “di volume”, che accumulano statistiche grazie al frequente coinvolgimento nel gioco. Al contrario, i difensori sono considerati giocatori “situazionali”, che richiedono prontezza per tackle e duelli poco frequenti ma cruciali. Questa discrepanza non solo limita la disponibilità di statistiche per i difensori, ma mette anche in discussione l'idea che “più” equivalga necessariamente a “meglio”.
3)Pregiudizio sulla qualità dell'avversario: Le valutazioni basate su una singola partita sono suscettibili di pregiudizi derivanti dal calibro della squadra avversaria. Le statistiche che appaiono lodevoli contro squadre di alto livello possono perdere significato contro avversari di rango inferiore.
4)Sfide della normalizzazione: Se da un lato la normalizzazione delle statistiche “per 90 minuti” aiuta a ottenere una rappresentazione più completa dei dati, dall'altro introduce potenziali outlier per i giocatori con una breve durata di gioco. Per mitigare le distorsioni derivanti da tali anomalie, è indispensabile effettuare controlli robusti.
Alla luce di queste considerazioni, abbiamo scelto di evitare le valutazioni complesse delle singole partite e di concentrarci invece su valutazioni complete di interi tornei. La logica è che l'aggregazione dei dati su più partite aiuta a mitigare l'impatto di vari problemi inerenti alle analisi di singole partite, fornendo una prospettiva più olistica sulle prestazioni dei giocatori.
Nelle fasi preliminari della formulazione del nostro indice di prestazione globale (Indice Kama), è importante approfondire la natura dettagliata dei dati, che vengono classificati in base a diverse grandezze:
Dato il nostro intento di costruire l'indice attraverso una sintesi delle principali valutazioni statistiche, un prerequisito cruciale è quello di normalizzare queste diverse statistiche su una scala uniforme, idealmente compresa tra 0 e 10. Questa normalizzazione facilita la continuità dell'indice. Questa normalizzazione facilita la perfetta integrazione dei punteggi, rendendo più semplice il calcolo del punteggio finale dell'indice. In sostanza, questo approccio può essere concettualizzato come una traslazione: i punteggi cambiano più rapidamente dove le osservazioni sono densamente concentrate, mentre il tasso di variazione diminuisce nelle regioni in cui le osservazioni sono meno dense.
Nel contesto della nostra analisi statistica, ogni tipo di dato corrisponde ora a punteggi oggettivi. Gli eventi negativi, come i falli, i possessi persi e le occasioni mancate, sono stati invertiti per allinearsi a una scala standardizzata. Il compito successivo prevede la selezione oculata dei punteggi più adatti ai vari profili dei giocatori.
Per riconoscere i ruoli e le caratteristiche distinte di ogni calciatore, abbiamo classificato i giocatori in sette ruoli distinti:
Pur raccogliendo un ampio bacino di oltre 300 statistiche, ci assicuriamo di curare un sottoinsieme significativo. I primi tentativi con sole 10 statistiche hanno rivelato un appiattimento indesiderato dei risultati e una perdita di informazioni preziose. Di conseguenza, per ogni ruolo di esterno, selezioniamo con criterio tra le 6 e le 8 statistiche, mentre per i portieri sono necessarie solo 4 statistiche chiave a causa del loro set di dati relativamente limitato.
Per ricavare l'indice Kama, utilizziamo un approccio molto semplice: un prodotto scalare tra i punteggi e un vettore di pesi, dove ogni elemento rappresenta il peso di importanza della statistica corrispondente. La normalizzazione si ottiene dividendo il risultato per la somma dei pesi. Questo processo, essendo una combinazione convessa di valori compresi nell'intervallo [0-10], garantisce che anche l'indice Kama rientri in questo intervallo specificato [0-10].
In futuro, stiamo pensando a un'estensione che si concentri sulla valutazione delle prestazioni basate solo sugli ultimi 1500 minuti giocati. Questa funzione consentirebbe di interpretare la forma recente di un'intera stagione per i giocatori che superano questa soglia. Al contrario, i giocatori che scendono al di sotto di questa soglia minima (per motivi gerarchici o di infortunio) hanno i dati della stagione precedente, anche se a costo di una minore affidabilità dei risultati.
Per illustrare l'aspetto del Kama Index, abbiamo selezionato e classificato alcuni giocatori di Serie A in base alle loro prestazioni fino a questo momento della stagione.
Per prima cosa diamo un'occhiata ai portieri, perché sono quelli la cui valutazione è più probabile che sia fuorviante e mal interpretata. I portieri che giocano in squadre con difese più deboli possono mostrare statistiche apparentemente impressionanti, mentre quelli che giocano in squadre con difese solide possono apparire relativamente inattivi. In particolare, il portiere della Juventus, Wojciech Szczęsny, è emerso come uno dei migliori interpreti della stagione. Nonostante una percentuale di parate per partita inferiore alla media, dovuta alla solida organizzazione difensiva della squadra, Szczesny detiene la migliore percentuale di parate del campionato e brilla anche nella fase di costruzione del gioco, dove brilla per le sue impressionanti capacità di passaggio. Szczesny ha un Kama Index di 8,28 finora, uno dei migliori tra i portieri della Serie A.
Trasferitosi nel ruolo di terzino, Lucas Martinez Quarta, difensore della Fiorentina, si è sempre distinto come un giocatore di prim'ordine in campionato. Sebbene non brilli per caratteristiche fisiche superiori, riesce a eccellere come difensore costante e versatile, che mostra un gioco stellare da posizioni profonde e fa sentire la sua presenza in attacco con tre gol finora in questa stagione. Ha un impressionante indice Kama di 7,97.
A centrocampo, la zona caratterizzata dai parametri più diversi, Hakan Çalhanoğlu emerge come l'epitome dell'eccellenza, raggiungendo il KamaIndex più alto della Serie A con un impressionante 9,7. La poliedricità di Calhanoglu comprende intensità difensiva, superbe abilità di playmaking, una potente capacità di tiro dalla distanza e un record impeccabile come calciatore di rigore.
Infine, per quanto riguarda gli attaccanti, abbiamo un'attenzione particolare per Matteo Politano, che ha svolto un ruolo fondamentale nel mantenere la resistenza del Napoli in una stagione difficile dopo l'ultima vittoria del titolo. Mentre Osimhen e Kvaratshkelia stanno lottando per raggiungere i livelli raggiunti durante la campagna 22/23, Politano è stato eccezionale durante la prima metà della stagione 23/24. In testa alla classifica delle minacce attese, la sua abilità sta nel dribbling dinamico, nei movimenti strategici e nella capacità di creare spazio per il suo cannone di piede sinistro. Tutte queste qualità contribuiscono alla sua impressionante valutazione di 8,69 Kama.
Sebbene la nostra attenzione si sia concentrata principalmente sulla valutazione dei singoli giocatori, è essenziale sottolineare che il Kama Index è altrettanto adatto a valutare le prestazioni delle squadre, con alcune piccole distinzioni. Per avere un quadro completo e olistico delle capacità della squadra, il Kama Team Index incorpora tre diversi indici invece di quello applicato ai giocatori.
Analogamente all'indice dei giocatori, ognuno di questi tre indici incorpora un insieme unico di parametri che incarnano l'essenza delle rispettive fasi. In alcuni casi, nella valutazione vengono presi in considerazione anche alcuni parametri unici per una determinata squadra.
Sebbene ci si aspetti che le squadre d'élite eccellano in tutti e tre gli indici, la suddivisione in fasi offensive, difensive e di transizione rivela anche la filosofia di gioco e l'approccio al gioco di una squadra. L'Indice Kama mette in evidenza i punti di forza e di debolezza delle squadre, fornendo al contempo preziose indicazioni sulle loro strategie distintive.