texto:   A-   A+
eliax

Pregunta a eliax: ¿Cómo interpretar datos estadísticos?
eliax id: 6304 josé elías en mar 14, 2009 a las 09:22 PM (21:22 horas)
eliax - para mentes curiosasEn uno de los comentarios a esta noticia un lector pregunta sobre cómo interpretar la gráfica que aparece en esa página, y eso me acordó que no es la primera vez que hacen esa pregunta dentro o fuera de eliax, así que aquí les pongo una muy breve guía para entender ese tipo de gráficos, y que de paso creo que muchos aprenderán algo nuevo, en particular sobre cómo muchos manipulan este tipo de gráficos "sin mentir" para hacer aparentar que sus números son extraordinarios.

Noten que nos vamos a concentrar en el tipo de estadísticas publicadas en informes científicos y tecnológicos para consumo popular. Esta no es una clase de estadísticas.

Lo primero a entender es alguna nomenclatura básica. En gráficos muchas veces verán cosas como 3Q, 2H, 4Q07, 4Q07-4Q08.

Esto en realidad es bastante sencillo. La "Q" simplemente se refiere a un cuarto (Quarter en inglés) de año, así que por ejemplo los primeros 3 meses del año son el primer cuarto (o 1Q), los segundos 3 meses son el segundo cuarto (o 2Q), y así sucesivamente hasta 4Q (que se refiere específicamente a Octubre, Noviembre y Diciembre).

Similarmente, ya podrán deducir que los otros dos números se refieren al año. Por lo que 4Q08 significa literalmente "los últimos 3 meses del 2008". Lo correcto sería 4Q2008 (y a veces verán eso), pero el estándar es la forma corta.

Tomando un ejemplo específico de nuestro ejemplo, donde dice "Growth 4Q07-4Q08" eso quiere decir literalmente "Crecimiento que compara los 3 últimos meses del 2007 con los 3 últimos meses del 2008".

En cuanto a cosas como 1H o 2H, se refieren a mitad de año (Half en inglés). Por lo que 1H se refiere a la primera mitad (o primeros 6 meses) del año, y 2H se refiere a al segunda mitad. Esto es popular en informes financieros.

Lo segundo a entender es que hay dos tipos de números casi siempre proveídos, números porcentuales, y números no porcentuales.

Los números porcentuales obviamente se refieren a un porciento de algo, pero hay que tener cuidado porque puede ser un porciento en relación a los otros números dados en una misma columna, o una misma fila.

Por ejemplo, en la gráfica que aparece en este noticia las últimas dos columnas dicen "Market Share 4Q07 (%)" y "Growth 4Q07-4Q08"

En la que dice "Market Share 4Q07 (%)" (o "Porcentaje del mercado para los últimos 3 meses del 2007") los números proveídos son en relación a los otros números en esa columna. Es decir, si sumas todos los números en esa columna el resultado debe dar 100 (como lo expresan en la gráfica).

Como ejemplo concreto, según la gráfica la empresa Symbian obtuvo el 52.4% del mercado en el 2007. Eso significa que poco mas de la mitad de los celulares vendidos en ese año eran de Symbian.

Noten que a veces el total no da 100 porque obvian datos que no son de importancia. Por ejemplo, en esta gráfica ellos perfectamente hubieran podido haber obviado la fila que dice "Other OSs" ya que el 1.1% del mercado que representan es insignificante en relación al resto, por lo que el total aquí hubiera dado 98.9%.

En cuanto a la columna que dice "Growth 4Q07-4Q08", esos números se refieren al crecimiento porcentual en relación a una fecha pasada (en este caso, están comparando el crecimiento de los números en las filas de las columnas tituladas "4Q07 Sales" y "4Q08 Sales" (noten que estas columnas no aparecen en ese mismo orden, sino que "4Q08 Sales" aparece primero porque es un dato mas reciente, algo común en informes financieros de fin de año).

Como ejemplo, noten que en el caso de Reserach In Motion (RIM), el porcentaje de crecimiento es de un 96.7%. Eso no significa que los celulares de RIM se vendieron 96.7 veces mas en el 2008 que en el 2007, sino que esto es tan solo el crecimiento porcentual. En la realidad esto significa que por cada celular que se vendía en el 2007, en el 2008 ahora se están vendiendo casi el doble (es decir, un crecimiento de casi un 100%).

Este último párrafo es importante que lo vuelvan a leer si no lo entienden, porque aquí nos encontramos con uno de los primeros trucos que los mercadólogos utilizan para hacernos creer que sus ventas son mas espectaculares de lo que son.

Por ejemplo, una empresa que antes vendía 2 millones de dólares y ahora vende 4 millones (y quizás tenía como objetivo vender 10 millones para finales de año pero no cumplió la meta) es posible que prefiera decir que sus ventas aumentaron en un 100%, en vez de en 2 millones de dólares, por la sencilla razón que muchas personas que no están al tanto de cómo interpretar estos números creerán que las ventas aumentaron 100 veces mas (si preguntan, se sorprenderán en conocer cuántas personas interpretan esto de esa forma). Y noten que aunque quizás en este ejemplo que doy los números son bastante obvios, la cosa se enreda mas cuando te dicen que las ventan aumentaron en un 376% (que suena impresionante).

Por otro lado, tenemos números que no son porcentuales, y que son los mas fáciles de manipular para dar una percepción incorrecta de la situación (aunque ese no es el caso en este ejemplo que estamos siguiendo).

Una cosa importantísima a entender cuando vemos estos números es encontrar la respuesta a la pregunta ¿qué números me están presentando y qué significan?

Por ejemplo, en la gráfica que seguimos bajo la columna que dice "2008 Sales" (Ventas del 2008) el Mac OS X (en este caso refiriéndose específicamente al iPhone) vemos la cifra "11,417.5", pero, ¿están hablando de dinero o cantidad de unidades?

Es aquí la importancia de leer la leyenda de la gráfica, que en este caso está arriba y dice "(Thousands of Units)", es decir, "miles de unidades".

Eso significa que 11,417.5 se refiere a unidades vendidas y no a dinero, y segundo que se debe multiplicar el número por 1,000, por lo que en este caso el iPhone en el 2008 vendió 11,417,500 unidades.

Es importante que noten eso de "miles de unidades", porque muy bien hubiera sido "In Millions of dollars" ("En millones de dólares") en cuyo caso las cifras que verían habrían que multiplicarlas por 1 millón cada una para obtener la cifra real.

Ahora les quiero hablar de una táctica utilizada muchísimo en todo tipo de mediciones que son representadas en gráficos, del tipo que veríamos cuando se compara (por ejemplo) la velocidad de un procesador contra otro, o de un sistema operativo contra otro.

Un truco que puede hacer que tus números sean muchísimo mejores que los de la competencia es utilizar solo la diferencia relativa absoluta entre ambos números, y graficarlos porcentualmente.

¿Qué significa eso?

Pues imaginen que comparamos la velocidad de tres procesadores A, B y C, en donde A obtuvo una puntuación de 950 puntos, y el procesador B de 975, y el C de 1000. Es decir:

A 950
B 975
C 1000

La manera correcta de graficar esto sería una linea que se extendiera desde el número 0 hasta el número 1000, y dentro de esa linea graficar los valores de los puntos A, B y C.

Sin embargo, una técnica medio sucia que vemos todos los días es graficar solo las diferencias relativas, es decir, empezar a graficar desde por ejemplo el número 950 hasta el 1000.

Esto tiene como efecto que visualmente el procesador B se vea que es 50% mas lento que el C, cuando en realidad la diferencia es de un 5%.

Como ejemplo concreto vean la tercera gráfica en esta página que acabo de encontrar para explicar este efecto. La gráfica es titulada "Cinebench OpenGL (Higher=better)".

Si notan en esa gráfica, la barra azul (perteneciente a la tarjeta de video XFX nForce 780i") es muchísimo mas corta que la barra verde (perteneciente a la tarjeta de video GA-EP45 Extreme").

En esa gráfica uno podría deducir visualmente que la tarjeta de video representada por la barra azul es un 30% mas lenta que la representada por la barra verde, y eso posiblemente afecte tu decisión de comprar una tarjeta por sobre la otra, sin embargo, noten que la gráfica en realidad ha graficado los valores solo entre el rango de números 3000 al 4800. En vez desde el 0 al 4800. Es decir, estamos viendo solo una "magnificación" de la "punta derecha" de la gráfica.

Si esto se graficara desde el 0 al 4800, la diferencia entre estas dos tarjetas no sería un percibido 30%, sino que aproximadamente un 10%, lo que es una diferencia bastante sustancial. Y noten que este ni siquiera es un ejemplo extremo. Con esta técnica uno puedo hacer que una cantidad aparezca ser cualquier cosa con simplemente manipular cuál parte de la gráfica mostrar.

Ahora, antes que alguien lo note en los comentarios, es bueno aclarar que también existen razones válidas para mostrar solo parte de la gráfica, como por ejemplo para datos que son bastante largos pero que cambian muy poco y por tanto no se pueden graficar de otra manera para uno ver las diferencias (como en este ejemplo de Cinebench), en cuyo caso lo correcto sería aclarar que ese es el caso, y quizás hasta proveer la gráfica "real" alternativa. Sea como sea, es importante entender ese concepto para no caer en esa trampa.

Así que ahí lo tienen, como siempre espero que algunos hayan aprendido algo nuevo hoy.

Y como siempre, pueden acceder a mas artículos similares en la sección de "Pregunta a eliax", y enviar sus preguntas por este medio.

autor: josé elías

Comentarios

  • Oye eliax, muchas cosas obvias pero como decis me sorprendo toda la gente que no sabe estas cosas. Gracias por el blog.

    • La imagen ya no deberia estar en "Baja productividad".

  • gracias por la explicación.

  • Acabo de leer todo el articulo y la verdad que me a servido mucho para futuras interpretaciones, gracias.

    También quería agradecerte por el articulo de watchmen ya que después de leerlo pude entender y disfrutar de la película (por suerte lo lei antes de verla)

    saludos y gracias nuevamente.

  • Bien Elías, totalmente una contribución, un abrazo

  • Hola Elias,

    Quisiera hacer una pequeña aclaración con respecto al ejemplo que colocas, en donde dice: "... Esto tiene como efecto que visualmente el procesador B se vea que es 50% mas lento que el C, cuando en realidad la diferencia es de un 5%...."

    En realidad, si se compararan el procesador B con el C, la diferencia sería del 2,5 %. ó simplemente sería la comparación entre el procesador A y el C para que efectivamente sea del 5%.

    Gracias.

    Buen aporte para entender los datos. Adelante con tu página.

    • Andrés,

      Gracias por el intento, pero estoy correcto :)

      Aunque la diferencia es de un 2.5%, si graficas solo desde el 950 al 1000, y pones el punto B en 975, y el punto C en 1000, la diferencia *visual* (es decir, aparente) es de un 50% ya que la barra B sería la mitad del tamaño de la barra C.

      Tu comentario es válido matemáticamente, pero visulamente solo sería válido si se graficara desde 0 hasta 1000.

      • Hola Elias...

        Lo que sucede, es que tú dices:

        "... cuando en realidad la diferencia es de un 5%..." cuando te refieres a la diferencia entre el procesador B y C.

        Pero en realidad la diferencia es del 2,5 %., porque los valores serían 1000 para el C y 975 para el B.

        Pero no estoy hablando de lo que gráfica/visual-mente se apreciaría, porque en ese detalle estás en lo correcto.

        No sé si me hice entender?...
        De todos modos no es de mucha importancia... no le demos más vueltas al asunto. jejeje. Gracias de todos modos.

  • Si bueno, creo que es solo cosa de tener un poco de sentido comun y un diccinario de idiomas a la mano.

  • Si bueno, creo que es solo cosa de tener un poco de sentido comun y un diccinario de idiomas a la mano.

Añadir Comentario

tu nombre
tu email
(opcional)
web personal
(opcional)
en respuesta a...
comentario de caracteres máximo
3 + 7 = requerido (control anti-SPAM)
 

"[...] mi hija me dijo de tu blog hace aproximadamente 7 años. Me has hecho llorar, reír, pensar y opté por ser agnóstico, me siento libre."

por "Raúl" en may 22, 2014


en camino a la singularidad...

©2005-2014 josé c. elías
todos los derechos reservados
como compartir los artículos de eliax