¿Influyen los árbitros que pitan un partido NBA en la cantidad de faltas del partido?
El otro día me pasó por la cabeza analizar los factores más importantes que influyen a la hora de pitar faltas personales en un partido de baloncesto. Mi idea era que hay árbitros más y menos permisivos, unos que pitan más técnicas y otros que son más amigables, con lo que quería ver hasta que punto tenía razón y la cantidad de faltas pitadas en un partido depende de los árbitros que hay presentes o de otros factores.
A partir de esta idea, encontré en Kaggle estadísticas bastante completas con los boxscores de los partidos NBA de las últimas temporadas, junto a otra tabla dentro del mismo dataset donde me informaba de los árbitros que habían pitado cada partido. Como sabéis en la NBA pitan 3 árbitros cada encuentro, y la mayoría de estos árbitros llevan muchas temporadas haciéndolo, por lo que me propuse estudiar aquellos que habían pitado más de 200 partidos, para disponer de una base de partidos amplia para cada árbitro.

Para el análisis tomé la temporada 1986 como punto de partida para garantizar un rango de datos consistente hasta 2023. El estudio se centrará únicamente en partidos de las 30 franquicias actuales de la NBA y excluirá partidos no competitivos como el All-Star o pretemporada. Algunas temporadas presentan particularidades en el número de encuentros, como las campañas 1998-99 y 2011-12 por los lockouts, y la 2020-21 por el COVID-19, además de existir ciertas temporadas con datos incompletos, como la 2012-13 y algunas de los años 70.
¿Qué factores tienen relación con el número de faltas que se pitan en los partidos?
Los dos primeros aspectos que consulté la importancia que tenían era el factor de jugar en casa o fuera y la temporada en la que se disputaron los partidos. Como se puede ver, el número de faltas se ha ido reduciendo a lo largo de las temporadas, entre otras cosas, gracias a los ajustes en el reglamento para fomentar menos parones en los partidos y un juego más vistoso.
Desde la década de 1980, el número total de faltas personales por partido ha experimentado una reducción significativa, de en torno al 25–30 %. Además, los equipos que juegan como visitantes suelen recibir más faltas personales que los locales, un fenómeno que podría estar parcialmente influido por la presión del público sobre el comportamiento arbitral. No obstante, esta diferencia entre faltas señaladas a equipos locales y visitantes fue especialmente pronunciada en los años ochenta y se ha ido reduciendo progresivamente con el paso del tiempo.


Otro aspecto el cual quería analizar que podía tener influencia en las faltas pitadas eran los equipos que disputaban cada partido. Gracias a esto, quería analizar si había franquicias más o menos limpias, o simplemente algunas más respetadas por los árbitros históricamente.
Al analizar el diferencial de faltas según la localía, se observa que equipos como San Antonio Spurs, Charlotte Hornets y Los Angeles Lakers han sido históricamente los más beneficiados cuando juegan en casa, mientras que franquicias como Golden State Warriors, Toronto Raptors y New York Knicks tienden a recibir más faltas que sus rivales en esa misma condición.

Un patrón muy similar aparece en los partidos como visitantes: nuevamente Spurs, Hornets y Lakers presentan los diferenciales de faltas más favorables, mientras que Golden State Warriors, Boston Celtics y New York Knicks destacan como los equipos más castigados por las decisiones arbitrales lejos de su pabellón. En general, si que se aprecian diferencias al analizar los partidos disputados equipo a equipo pero los comportamientos jugando en casa o a domicilio son similares.

¿Afecta el resultado del partido a la cantidad de faltas de cada equipo? En principio, parece ser que sí, en aquellos partidos donde gana el equipo local, al equipo visitante le pitan prácticamente 2 faltas más que al local de media, mientras cuando gana el visitante, a este le pitan prácticamente una falta menos que al equipo local de media.

Por otra parte, quería observar el verdadero efecto de la presencia de según que árbitros a la hora de pitar el partido. En el estudio, se ve que los árbitros con un mayor número de partidos dirigidos tienden a concentrarse en la zona central de la distribución, mientras que aquellos con menos experiencia muestran una mayor dispersión en sus valores. No obstante, se observan diferencias relevantes entre algunos colegiados, lo que sugiere que esta variable puede resultar especialmente útil para explicar la cantidad de faltas señaladas en un partido. De hecho, hay algunos que incluso promedian más faltas personales pitadas al equipo local que al visitante.

El último factor que quería analizar antes de entrar en el modelo era si la cantidad de público que asistía al partido era influyente en la presión que sentían los árbitros a la hora de pitar mejor al equipo local. Este último gráfico pone de manifiesto el sesgo descrito anteriormente: los partidos en los que el equipo local resulta más beneficiado por las decisiones arbitrales son aquellos en los que existe una mayor presión del público a su favor. En consecuencia, la asistencia al pabellón se perfila como una variable relevante para predecir el número de faltas señaladas a cada equipo, donde sobre todo se pone de manifiesto en los extremos de la distribución: Se observa de forma clara que en los partidos donde el equipo local ha sido más favorecido había notablemente más público que en los que sucedió lo contrario.

¿Que variables son más importantes a la hora de predecir?
Con todo esto, nuestro objetivo es hacer un modelo predictivo que utilizando la información disponible en nuestro histórico sea capaz de predecir de la forma más exactas cuántas faltas va a hacer cada equipo en un partido. Las variables que se incorporarán al modelo pueden agruparse en distintos bloques: estadísticas del partido, tanto principales como secundarias, evitando aquellas directamente dependientes del número de faltas para prevenir data leakage; la temporada en la que se disputa el encuentro, ya que los cambios de reglas y estilos de juego influyen en la frecuencia de faltas; el tipo de partido, diferenciando entre temporada regular y playoffs, donde la intensidad y el criterio arbitral suelen variar; los equipos local y visitante, considerando sus estilos de juego y posibles diferencias históricas en el trato arbitral; la duración total del partido, que aumenta en caso de prórrogas; el árbitro asignado, una variable clave para explicar cuántas faltas se señalan; y, finalmente, la asistencia al encuentro, dado que la presión del público puede influir en las decisiones arbitrales.
Con todo esto, el objetivo era ser capaz de que el modelo extrajese por si mismo aquellas variables que más le han servido de cara a predecir las faltas personales, y resolver así la pregunta de si la influencia de los árbitros a los partidos es alta o baja.
En este gráfico, el eje Y muestra las variables ordenadas de mayor a menor importancia, situando en la parte superior aquellas con mayor influencia en el modelo, mientras que el eje X representa el valor SHAP, es decir, la contribución de cada variable a la predicción. Los valores positivos indican que la variable empuja la predicción hacia un número mayor de faltas, y los negativos hacia uno menor. El color de los puntos refleja el valor real de la variable en cada observación, donde el rojo suele corresponder a valores altos y el azul a valores bajos, y la densidad o dispersión de los puntos a lo largo del eje X indica la frecuencia con la que se produce ese impacto.
El ranking de las variables más importantes para predecir las faltas que realiza el equipo que juega de local tras hacer el modelo quedaría así:

Entre las principales variables que influyen en la predicción de faltas, las pérdidas del equipo local son la más determinante: un mayor número de pérdidas genera predicciones de más faltas, ya que frecuentemente el equipo contrario comete una falta para frenar la posesión o el contraataque, incluyendo las faltas ofensivas. En segundo lugar, las asistencias del equipo visitante tienen un efecto inverso: más asistencias suelen traducirse en más canastas y, por tanto, en menos faltas sobre el equipo local. La temporada del partido también es relevante, reflejando la evolución del estilo de juego y los criterios arbitrales a lo largo de los años, con un descenso general de faltas en los últimos 20–25 años.
Otras variables importantes incluyen la diferencia de puntos del equipo local, donde ir perdiendo aumenta las faltas, y los robos del equipo visitante, que disminuyen las faltas locales al generar canastas rápidas. Donde juega el equipo, tanto local como visitante, muestra patrones propios que afectan la cantidad de faltas, mientras que la duración del partido correlaciona claramente con más faltas en encuentros con prórrogas, dado que el partido es más largo y la cantidad de faltas aumenta. Los puntos de segunda oportunidad del local reflejan agresividad ofensiva y también aumentan ligeramente las faltas.
Por último, el árbitro (official_id) tiene un impacto moderado, confirmando que algunos colegiados tienden a señalar más o menos faltas según su estilo de arbitraje, sin entrar en el top5 de variables influyentes, pero siendo una variable de las más importantes entre las aproximadamente 50 que hemos introducido a la hora de hacer nuestro modelo. ¿Qué variables pensabas que iban a ser las más influyentes a la hora de estimar el número de faltas pitadas? ¿Te ha sorprendido el resultado?
Muy buen análisis con buenas explicaciones, sería interesante saber si el entrenador también influye en el numero de faltas por proponer un estilo de juego más agresivo,