From a645f664b35f05cc7fca5fc05b8fa18a18989e2e Mon Sep 17 00:00:00 2001 From: Guillem Borrell Nogueras Date: Fri, 12 Aug 2022 16:11:27 +0200 Subject: [PATCH] Update 'HomeES' --- HomeES.md | 33 +++++++++++++++++++++++++++++++-- 1 file changed, 31 insertions(+), 2 deletions(-) diff --git a/HomeES.md b/HomeES.md index c3b77ea..1735e2a 100644 --- a/HomeES.md +++ b/HomeES.md @@ -3,12 +3,41 @@ Bienvenidos a la página que contiene el material presentado en el taller de la PyCon España de Granada, el 30 de septiembre de 2022. # El desafío -Supongamos que somos expertos en el análisis de grandes cantidades de datos a nivel mundial, así que parte de nuestro tiempo se dedica a dar charlas en conferencias internacionales. Justo al final de una de un taller de la PyCon un hombre de aspecto serio se nos acerca, nos entrega un sobre con documentación y nos pide que firmemos un recibo. +## Un señor de aspecto serio + +Supongamos que somos expertos Big Data a nivel mundial, así que parte de nuestro tiempo se dedica a dar charlas en conferencias internacionales para expertos en Big Data. Justo al final de una de un taller de la PyCon un hombre de aspecto serio se nos acerca, nos entrega un sobre con documentación y nos pide que firmemos un recibo. -¿Sobre qué es la documentación? Preguntamos. --Es la documentación para particicpar como perito en un juicio de parte de la acusación. El juicio se celebrará en aproximadamente dos meses. A partir de ahora está bajo secreto y no puede compartir el contenido de este sobre y su participación con nadie. El secretario judicial le contactará cuando se sepa la fecha y hora de su declaración. + +-Es la documentación para participar como perito en un juicio de parte de la acusación. El juicio se celebrará en aproximadamente dos meses. A partir de ahora el contenido de este sobre, su participación como testigo y cualquier indagación que haga queda bajo secreto de sumario. El secretario judicial le contactará cuando se sepa la fecha y hora de su declaración. El hombre de aspecto serio se va con el mismo aspecto serio sin decir una palabra más, y nos deja plantados en una aula de universidad vacía y silenciosa. +Esa misma noche abrimos el sobre en la habitación de hotel, con el ordenador abierto para ir tomando notas. + +## El Casino Cansino + +La Dirección General de Ordenación del Juego (DGOJ) sospecha que `Casinos Cansinos Online`, a partir de ahora CCO, está manipulando la generación de números aleatorios para aumentar sus beneficios. Si algo bueno tienen los juegos de azar es que obtener cualquier cantidad, incluida la cantidad de dinero que se embolsa la casa, es un ejercicio de primero de Estadística. La sospecha se centra en el juego de Ruleta Francesa. La casa debería ganar aproximadamente un 2.7% de lo apostado, pero esta cifra es sensiblemente superior. Pero cuando los funcionarios de la DGOJ han revisado los registros históricos de tiradas, no hay indicios que el número 0, que permite a la casa recoger lo apostado por los jugadores, tenga mayor probabilidad de selección que cualquier otro número del 1 al 36. + +CCO alega en su defensa que las ganancias por encima de lo esperado siguen estando por debajo del 1% del intervalo de confianza, y que no hay que penalizarles por tener buena suerte, o porque sus clientes sean especialmente torpes jugando a la ruleta. + +Por exigencia del regulador, CCO está obligado a guardar y proporcionar los registros históricos de todas las apuestas y tiradas de cada mesa de ruleta durante los últimos 10 años. Lo que no exige el regulador es que los datos salgan de sus sistemas y que deban proporcionar a los funcionarios o peritos los recursos de cálculo necesarios para investigar cualquier irregularidad. + +De este modo, CCO ha proporcionado una máquina virtual con 4 cores, 4 GB de memoria y unos 256 GB de disco conectada a su data lake. No ha proporcionado ningún entorno Hadoop, ningún cluster Spark y mucho menos una suscripción a AWS para levantar los servicios necesarios. Por este motivo los funcionarios de la DG han decidido pedir ayuda a un experto en Big Data. +## Los datos + +El casino lleva 10 años operando, con unas 100 mesas de Ruleta Francesa realizando tiradas cada minuto ininterrumpidamente. Cada mesa puede tener un máximo de 25 jugadores, límite necesario para que la mesa no se abarrote de apuestas (el regulador obliga a que el juego en los casino online sea lo más parecido posible a un casino real, con lo que es obligatorio que cada jugador vea la apuesta de los otros jugadores). Suponiendo una media de 12 apuestas por tirada (cada jugador puede hacer más de una apuesta), los datos consistirán de + +* 10 años +* 0.5M de minutos en un año +* 12 apuestas por minuto +* 100 mesas + +Multiplicando las cantidades anteriores tenemos aproximadamente 6G registros, cada uno especificando el instante de tiempo, el jugador, la mesa, la tirada... + +## La Ruleta Francesa + +Las reglas de la ruleta francesa son sencillas +