viernes, 15 de mayo de 2015

La permanencia en primera y el abuso del concepto de la probabilidad en el fútbol

La permanencia en primera y el abuso del concepto de la probabilidad en el fútbol

Publicado por: Ansgar Seyfferth 14 horas ago
http://ssociologos.com/2015/05/14/la-permanencia-en-primera-el-abuso-del-concepto-de-la-probabilidad-en-el-futbol/

Al entrar la presente temporada de la liga española de fútbol en su recta final, cabe esperar que como en años anteriores por estas fechas los medios de comunicación empiecen a manejar las supuestas probabilidades de descenso de todos los equipos involucrados en la lucha por permanecer en primera división, es decir, aquellos que matemáticamente (aún) ni han descendido ni están salvados. Porcentajes, al ser posible con decimales, gozan de gran popularidad en los medios por la apariencia científica que aportan. El problema es que en este caso, como en muchos otros, se trata solo de eso, de una apariencia. Si leemos que un determinado equipo tiene un 37,9 % de probabilidades de descender, estamos ante una importante falta de rigor y una banalización del concepto de la probabilidad, que queda más patente aún si otra fuente eleva esta misma probabilidad al 57 %. El fútbol nos proporciona un buen ejemplo de que el concepto de la probabilidad es mucho más complejo de lo que pueda parecer a primera vista.
fútbol-permanencia-descensoSupongamos que hasta el fin de la temporada quedan N partidos con participación de los equipos inmersos en la lucha por la permanencia, que consiste en tratar de no acabar la temporada en uno de los últimos tres puestos de la clasificación que implican el descenso a la segunda división. Si distinguimos los desenlaces victoria del equipo local, empate y victoria del equipo visitante, que se suelen codificar con 1, X y 2, respectivamente, teniendo en cuenta que una victoria suma tres puntos, un empate un punto y una derrota ninguno, hay 3N escenarios con diferentes repartos de puntos. Para cada uno de estos escenarios estaría definido quién se salva y quién desciende (a no ser que un empate a puntos nos obligue a considerar también los goles marcados y encajados en los partidos, una complicación que aquí vamos a pasar por alto para simplificar). Si por ejemplo quedan 6 partidos relevantes para el descenso, habiendo por tanto 36 = 729 escenarios de reparto de puntos posibles, y un determinado equipo descendería en 73 de ellos, podemos afirmar que descendería en el 10 % de los escenarios posibles.
El problema empieza cuando este porcentaje se interpreta como la probabilidad de descender de dicho equipo, ya que supone considerar igual de probables todos los escenarios, como si cada partido fuera un simple sorteo donde puede salir con la misma probabilidad, del 33,3%, 1, X o 2. Obviamente no es así, sino necesitaríamos asignar primero a cada uno de los N partidos en cuestión las probabilidades de los tres desenlaces posibles. Multiplicando las probabilidades correspondientes obtendríamos así la probabilidad de cada uno de los 3N escenarios (considerando los partidos como sucesos independientes, otra complicación en la que no vamos a entrar aquí). La probabilidad de descenso de un equipo sería la suma de las probabilidades de aquellos escenarios que le dejarían en los últimos tres puestos.
¿Pero cómo establecer las probabilidades de los tres posibles desenlaces de cada partido? Las noticias sobre las supuestas probabilidades de descenso no suelen revelarlo. Parece que frecuentemente se usan las proporciones de los desenlaces 1, X y 2 a lo largo de la historia de la liga española, lo cual es sin duda mejor que asumir un 33,3% para cada uno de los tres desenlaces, pero sigue siendo muy simplista, sobre todo porque asume una misma distribución de las probabilidades para todos los partidos, sin distinguir los rivales que se enfrentan, dando por ejemplo como igual de probable una triunfo del Córdoba CF en su visita al FC Barcelona que una victoria del Real Madrid visitando el RC Deportivo.
Podríamos afinar más usando para la asignación de las probabilidades de cada partido solo los antecedentes de este mismo enfrentamiento para resolver este problema, pero aparte de que para algunos partidos tendremos pocos o ningún antecedente (para equipos que nunca o muy pocas temporadas han coincidido en primera división), seguimos dejando fuera otro factor muy importante, que es la evolución temporal de los equipos. Volviendo al ejemplo anterior, el RC Deportivo – Real Madrid, con el Deportivo como local y el Real Madrid como visitante, se ha jugado en 43 ocasiones, con 16 victorias locales, 14 empates y 13 victorias madridistas, lo que nos llevaría para la siguiente edición de este partido (en la temporada 2015/16 si el Deportivo consigue mantenerse en primera división) a unas probabilidades para los desenlace 1, X y 2, del 37%, 33% y 30%, respectivamente. Es decir, estaríamos dando la victoria del Deportivo como el desenlace más probable y la del Real Madrid como el menos probable, lo cual no parece muy razonable en la actualidad, ya que el nivel del Deportivo en lo que va de década nada tiene que ver con el de las dos décadas anteriores que son las que inclinaron la balanza histórica en su estadio a su favor. Sin duda habría que darle más peso a los antecedentes recientes que a los de un pasado más remoto, pero incluso desde el último antecedente del enfrentamiento en cuestión las cosas pueden cambiar mucho según el estado de forma de cada equipo, por lo que habría que tener en cuenta también su rendimiento en los últimos partidos contra otros rivales, considerando por supuesto también el nivel de estos rivales a la hora de valorar los resultados.
En definitiva, el reto consiste en elaborar a partir de una base de datos histórica de partidos de fútbol (de la primera división española, o del ámbito que sea) un modelo matemático que en función de factores como los mencionados estima para los diferentes desenlaces de cada partido las probabilidades. Para ello no existe una fórmula mágica que nos dé las “verdaderas” probabilidades, sino cada modelo arrojará estimaciones diferentes. Además hay que ser consciente que todo modelo supone una simplificación de la realidad y habrá muchos otros factores relevantes pero difíciles de cuantificar y de incorporar por tanto en un modelo matemático, como por ejemplo si a un equipo le vale un empate o si tiene que salir a ganar como sea con las correspondientes implicaciones sobre la táctica de juego, posibles bajas importantes de cada equipo, lo que se juega cada equipo en la liga a estas alturas, las demás competiciones en los que aún puede estar inmerso un equipo, etc. A diferencia del lanzamiento de un dado que podemos repetir una y otra vez para comprobar que a largo plazo uno de cada seis veces nos sale un 1, lo que nos indica la probabilidad de este desenlace, un partido nunca se repite en las mismas condiciones: cambian los jugadores, su estado de forma, la química entre ellos y con el entrenador, las necesidades del equipo, la motivación, la concentración, etc. Por tanto, nadie conoce las verdaderas probabilidades de los diferentes desenlaces de un partido y por tanto tampoco las de descenso de un equipo (a no ser que ya matemáticamente haya descendido o esté salvado). Solo puede hablarse de estimaciones de la misma basados en un determinado modelo, más o menos sofisticado, pero que siempre será simplificador y hasta cierto punto arbitrario. También convendría explicarle al lector a grandes rasgos en qué factores y suposiciones se basa el modelo y con él las estimaciones de probabilidad indicadas.
El fútbol ha mostrado ser un deporte menos predecible que otros, debido a la enorme influencia de factores difícilmente cuantificables. A lo mejor en ello radica parte de su capacidad de fascinarnos.

Acerca de Ansgar Seyfferth

Director y cofundador de la filial española de STAT-UP, empresa alemana de consultoría y servicios estadísticos. Trabaja desde 1995 en Madrid en entornos internacionales, en áreas como la consultoría estadística, matemática, técnica e informática, incluyendo docencia y formación en estos campos, así como en el diseño y la venta de complejos sistemas y soluciones IT. Es Licenciado en Ciencias Físicas y Diplomado en Ciencias Económicas y Empresariales por la Georg-August-Universität Göttingen (Alemania) con un Máster en Ingeniería Matemática por la Universidad Complutense de Madrid. De lengua materna alemana, habla además español, inglés, francés y portugués. Es coautor de varios artículos científicos de diferentes áreas. También colabora con la junta directiva del Círculo Hipsano-Alemán de Jóvenes Directivos. Puede seguirle en Twitter @ASeyfferth o contactar por correo electrónico: madrid@stat-up.es

No hay comentarios:

Publicar un comentario