Datos y prueba de hipótesis para la toma de decisiones
Claude Bernard
Indistintamente,
en cualquier ámbito, las personas siempre están destinadas a tomar decisiones,
ya sea en situaciones de la vida cotidiana, con la familia, en el trabajo, en
sus negocios e incluso en ocasiones, son decisiones que afectarán a más de uno,
todo dependerá del contexto; momento, lugar y el nivel de responsabilidad con
el que se toman.
Cuando
hablamos de los negocios, un director basa su éxito en la fortuna alcanzada a
partir de sus decisiones, es decir que se brinden oportunamente y con
asertividad en el cumplimiento de los objetivos organizacionales y evitando las
pérdidas sistemáticas de proyectos infructuosos. Sin embargo, en la actualidad,
la dinámica de los negocios en los entornos caracterizados como VUCAH (acrónimo
en inglés que significa volátil, incierto, complejo, ambiguo e hiperconectado),
someten cualquier decisión a un alto grado de incertidumbre, sobre su real
aplicación y éxito. Ante esta realidad, los datos se convierten en un aliado
importante, pero sólo cuando sabemos qué hacer con ellos.
Por lo
anterior, la motivación de este post tiene que ver con el muchas veces errado
entendimiento de un método estadístico para la toma de decisiones bajo
incertidumbre, me refiero a la prueba de hipótesis que combina la estadística,
los datos y la toma de decisiones.
Partiré
entonces del concepto de hipótesis, que según la RAE: “es una suposición de algo posible o imposible para sacar de ello una consecuencia”,
otra definición de economipedia nos dice que: “La hipótesis es una
proposición que aún no ha sido corroborada y a partir de la cual se puede
desarrollar una investigación”, en este mismo sentido, el filósofo
empirista Carl Hempel nos dice que “las hipótesis, en cuanto a intentos de
respuesta, son necesarias para servir de guía a la investigación científica.
Esas hipótesis determinan, entre otras cosas, cuál es el tipo de datos que se
han de reunir en un momento dado de una investigación científica”. En este
último concepto, que brinda el epistemólogo Hempel, se logra apreciar la
relación dependiente de la hipótesis con los datos.
Ahora,
hablando de los negocios, las hipótesis están presentes desde que planteamos
nuestro modelo, ejemplo de ello es cuando colocamos suposiciones en cada bloque
CANVAS de Osterwalder, que son construcciones lógicas dictadas por nuestro
pensamiento y fundamentadas por la experiencia, conocimientos y la imagen que
nosotros creamos de la realidad contextualizada. Por otro lado, ya operando el
negocio, cuando tomamos decisiones, estas se basan en el supuesto éxito que
auguramos de su resultado para la organización, es decir, construimos antes una
hipótesis del impacto que tendrá nuestra decisión. Entonces cada hipótesis
puede ser real o irreal y si nuestro negocio está basado sólo en hipótesis aún
sin corroborar, tendremos un negocio basado en la suerte y salvo que prefieras
mantenerte y sostenerte en el idealismo, resultará peligroso y letal para tu
emprendimiento. Incluso, en el proceso Lean Start-Up se determinan hipótesis
arriesgadas para fracasar rápidamente y barato, dicho de otra manera: invertir
POCO para aprender MUCHO. Entonces, lo idóneo siempre será contrastar la
realidad con lo pronosticado y de ello documentar las lecciones aprendidas que
después se podrán capitalizar.
Pero si
deseas evitar grandes pérdidas de forma sistemática, el método para probar
hipótesis te permitirá asignar probabilidades a los diferentes escenarios, con
lo que podrás ponderarlos de la manera más objetiva posible. Porque en la
práctica las decisiones implican costes y beneficios, un mal planteamiento o
incorrecta interpretación de la hipótesis nos puede impulsar a tomar una
decisión incorrecta y peor aún, perdernos del entendimiento del fenómeno y
generar un erróneo aprendizaje de la situación.
La prueba de hipótesis
El método de
prueba de hipótesis es una herramienta de la estadística inferencial que
permitirá determinar, con un grado de confiabilidad (en %), si nuestra
proposición es FALSA o VERDADERA a partir de los datos con los que contamos,
dicho de otra manera, es una regla que especifica si se puede aceptar o
rechazar una afirmación acerca de una población dependiendo de la evidencia
proporcionada por una muestra de datos. Por ejemplo, se puede decidir, a partir
de los datos del muestreo, si un fármaco nuevo es realmente efectivo, si un
nuevo producto es mejor que el antiguo, si una moneda está o no trucada, etc.
Estas decisiones se llaman decisiones estadísticas y se toman sobre una base
probabilística. Los supuestos o conjeturas acerca de las poblaciones que se
estudian y que pueden ser o no ciertos, se denominan hipótesis estadísticas.
Una prueba de
hipótesis forma parte de la teoría de la decisión y examina dos hipótesis
opuestas sobre una muestra poblacional: la hipótesis nula y la hipótesis
alternativa. La hipótesis alternativa (H1) es el enunciado que
deseamos concluir como verdadero conforme a la evidencia de los datos de la
muestra. Mientras que la hipótesis nula (H0) es el enunciado que se
probará y buscará rechazar, por lo general es un enunciado de que "no hay
efecto" o "no hay diferencia". Se debe calcular el valor “p”
para tomar esa decisión, de tal manera que si dicho valor “p” es menor que
el nivel de significancia (denotado como α o alfa), entonces se puede rechazar
la hipótesis nula y por ende aceptar la hipótesis alternativa.
En el Anexo 1
podrá conocer los conceptos básicos mencionados en el párrafo anterior sobre la
prueba de hipótesis. Teóricamente podrá ahondar más en las pruebas de hipótesis,
por lo que he dejado algunas referencias que pudieran apoyarle en ese objetivo
[4,5,6].
Para este
post, he planteado dos ejemplos, uno muy coloquial de la vida cotidiana y otro
correspondiente a un caso de negocio real.
¡¡Ahora,
aprendamos a tomar decisiones basados en la prueba de hipótesis!!
Ejemplo 1.- El probable noviazgo de Ana y Juan
Un chico en la Universidad a quien
llamaremos Juan quiere declarar su amor a su compañera Ana y pedirle que sea su
novia de quien lleva conociéndola no más de un mes. Su relación se ha limitado
a trabajo dentro de clases, sin embargo, por su comportamiento y buena actitud
para con él, le ha hecho pensar que su amor pudiera ser correspondido. No se ha
declarado antes, porque necesitaba reunir más evidencia sobre una respuesta
afirmativa. No quiere ser rechazado, por lo que su éxito en esta situación no
se basa sólo en recibir un “sí”, sino que además desea exponerse lo menos posible
al rechazo, por lo que en caso de que la probabilidad de una respuesta negativa
sea mayor, él preferirá desistir.
Para este
ejemplo, lo primero es plantear las hipótesis nula y alternativa con base en lo
que deseamos rechazar. Dado que Juan quisiera rechazar que Ana le dé un NO por
respuesta, entonces:
H0
: No quiere ser su novia
H1
: Si quiere ser su novia
Hasta el
momento, el tiempo que lleva Juan de observar el comportamiento de Ana para con
él es igual a 4 semanas. Decide esperar 1 semana más para observar el
comportamiento de Ana con otros compañeros y reunir más evidencia sobre los
posibles sentimientos de Ana, continuando así, con el sutil coqueteo. Entonces,
a la siguiente semana decide hacer una prueba, un tanto arriesgada, generando
un mayor acercamiento, así que toma a Ana de la mano y le regala una flor a
modo de juego.
Pausa: Hasta este momento Juan tiene la
hipótesis original de que Ana pudiera aceptar su propuesta de ser novios, así
que desea rechazar la hipótesis de lo contrario (que Ana no quiera ser su novia).
Juan desea reunir más evidencia (recolecta datos) por lo que busca interactuar
con Ana para obtener más información, que le permita sostener su hipótesis
actual. Así que tomémonos unos minutos para analizar lo que pudiera suceder, planteando
tres posibles escenarios.
Escenario A:
Ana acepta la
flor, sonríe y se sonroja. Entonces, este método de recolección de datos le
permitió identificar que es alta la factibilidad de su noviazgo. Rechazando así
la hipótesis nula y aceptando la alternativa. Así que finalmente al salir de
clases decide declararse.
Escenario B:
El otro
escenario posible es que con la nueva evidencia Juan hubiere quedado aún más
confundido. Porque la respuesta que obtuvo al regalar la flor no haya sido del
todo satisfactoria, por ejemplo, que Ana no hubiera sido tan efusiva (tal vez
es porque hizo ver que era un juego, justo para evitar cualquier mínima
probabilidad de rechazo) o porque en los últimos días la hubiera visto
coqueteando con otra persona o que simplemente se esté percatando que Ana esté
teniendo un comportamiento errado hacia él, a veces amable y otras indiferente.
En este último escenario, Juan no podrá rechazar la hipótesis nula (no quiere
ser su novia), pero es claro que tampoco la podrá aceptar, es decir, no se
piensa rendir porque en realidad no ha sido despreciado por Ana, en pocas
palabras le faltan datos (un mayor tiempo de observación e interacción).
Escenario C:
En el peor de
los casos, Juan tuviera que reformular sus hipótesis (invirtiéndolas), es
decir, que, ante la nueva evidencia, Juan contemple como cercana realidad que Ana
no quiera ser su novia, porque al ella recibir la flor le dijera: “Qué lindo,
eres un gran amigo”, o pudiera incluso rechazarla con cierta molestia o simplemente
Ana formalice su noviazgo con otra persona en el inter. Lo anterior hará poco
probable que Ana dé un SÍ a la propuesta de noviazgo de Juan. Entonces, Juan
tendría que invertir el planteamiento de las hipótesis de como originalmente las
tenían planteadas.
H0
: Si quiere ser su novia
H1
: No quiere ser su novia
De lo
anterior y ante la nueva información, Juan decide no declarar su amor a Ana y
dedicar su tiempo a otras fructíferas actividades.
Obviamente,
en este ejemplo, juegan diversos factores, como los actores de este experimento
social que interactúan entre sí y con su entorno, por lo que la respuesta final
pudiera emerger de la capacidad de Juan para enamorar a Ana, o que sus
diferencias reales terminen por alejarlos. También está de por medio que las
relaciones sociales son complejas, etc, un sinfín de variables que no son
consideradas. Pero en la realidad así es como funciona, múltiples variables se
presentan en un mismo fenómeno y aunque la tendencia es a abordarlo
holísticamente, terminamos por acotarlo a pocas variables y realizando a lo
mucho un análisis multifactorial.
Ejemplo 2.- Ubicación de un potencial concesionario
Una empresa de almacenamiento de datos en su fase inicial ha sido contratada por un cliente de fabricación de automóviles que desea analizar la ubicación de un concesionario potencial. Como analistas de datos dos trabajadores deben realizar algunas investigaciones para evaluar si el área deseada está por encima o por debajo del promedio nacional, para la edad óptima de compra (mayor a la media nacional) y para indicar cuánto de un lapso hay entre la edad promedio nacional y la de la región en cuestión. Sólo se decidirá invertir si la edad promedio en dicha región está por encima de la media nacional. Se tienen datos de una porción de la población de la región (PR=26,380 personas, con edad promedio de 39.1 años) y de una porción de la población nacional (PN= 34,362,970 personas, con edad promedio de 39 años). Además, se cuenta con los estadísticos de ambas, como que cumplen con una distribución normal y sus desviaciones estándar son 𝜎PR = 23.5479 y 𝜎PN = 22.6019
Para
este caso, seguiremos los pasos para prueba de hipótesis del Anexo 2.
Del
caso anterior (Ana y Juan), queda claro que el primer paso es proponer las
hipótesis nula y alternativa. Se desea rechazar que el promedio de edad de la
zona en análisis es menor que el promedio de edad nacional (39 años).
H0
: X
H1
: X
El
segundo paso es especificar el nivel de significancia y confiabilidad. Por
default dejaremos el 5% de la significancia; funciona bien para estos casos, quedando:
C :
95% à 0.95
α : 1 – C = 5% à 0.05
Como tercer
paso, vamos a seleccionar la estadística de prueba Z dado que el caso menciona
que los datos siguen una distribución normal, se cuenta con las medias y la desviación
estándar, y el tamaño de la muestra de la zona es grande. Y dado que la
hipótesis alternativa tiene un signo de desigualdad “>” la cola se
ubica del lado izquierdo (+).
El siguiente
paso corresponde a obtener el valor “Zc”, o valor crítico de las tablas
de distribución de probabilidad normal. Podrás ver y descargar las Tablas Z en
el siguiente link: https://drive.google.com/open?id=1tmyIwQ8s76euqDo-m2x-lrWgaQiA-JI0
De
lo que:
ZC = (+) 1.64
El paso cinco corresponde a calcular el valor “ZP“ de la muestra. La ecuación que lo permite es:
Donde:
µ= Promedio teórico (Nacional) = 39
n = Tamaño de la muestra Regional = 26 380
Sustituyendo,
tenemos:
Por
último, se toma la decisión con base en los resultados. Y dado que el resultado
no está en la zona de rechazo, no se puede rechazar la hipótesis nula (La media Regional es menor o igual a la
Nacional, por ende, NO conviene invertir), mientras que tampoco es posible aceptar la hipótesis
alternativa (La media
Regional es mayor a la Nacional, por ende SÍ conviene invertir).
Como
en el caso de Ana y Juan, la evidencia nos indica que no estamos en el
escenario A, es decir, no podemos sostener las hipótesis como originalmente se
habían planteado. Tampoco en el escenario B, donde hay mayor incertidumbre, porque
claramente vemos que el valor “ZP” está posicionado en el
lado contrario de la gráfica de distribución (a la derecha). Entonces, la
evidencia nos debe hacer reflexionar de si debiéramos replantear las hipótesis,
hagamos la prueba. Las nuevas hipótesis serían:
H0
:
H1
:
Saltamos
directamente al tercer paso y dado que la hipótesis alternativa tiene un signo
de desigualdad “<” la cola se ubica del lado izquierdo (-).
En el paso
cuatro, “ZC“
de las tablas ahora es negativo: ZC
= -1.64
Del
siguiente paso, para el cálculo de ZP de la muestra, la ecuación y
resultado son lo mismo, porque ningún valor cambia, entonces:
Fuente: creación propia.
Finalmente, podemos tomar la decisión con base en estos resultados. Ahora sí, es posible rechazar la NUEVA hipótesis nula (La media Regional es mayor o igual a la Nacional, por ende SÍ conviene invertir), lo que finalmente nos lleva a aceptar la hipótesis alternativa (La media Regional es menor a la Nacional, por ende, NO conviene invertir).
Con
esto último, es posible tomar la decisión de desistir del esfuerzo e inversión
(probablemente sería más gasto, con un lejano retorno de inversión) de
implementar una concesionaria en esa región, por no cumplir con la importante
condición de tener una población con una edad promedio mayor a la media
nacional.
Evitar errores comunes
Un error
común de percepción es que las pruebas estadísticas de hipótesis están
diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al
diseñar una prueba de hipótesis, establecemos la hipótesis nula como lo que
queremos desaprobar. Puesto que establecemos el nivel de significancia para que
sea pequeño antes del análisis (por lo general, un valor de 0.05 funciona
adecuadamente), cuando rechazamos la hipótesis nula, tenemos prueba estadística
de que la alternativa es verdadera. En cambio, si no podemos rechazar la
hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea
verdadera. Esto se debe a que no establecimos la probabilidad de aceptar
equivocadamente la hipótesis nula para que fuera pequeña.
Este pequeño
error, lleva a muchos estudiosos del tema a equivocadamente indicar que al no
poder rechazar una hipótesis nula se debe aceptar, lo cual es falso, como lo
vimos en los dos ejemplos. Simplemente, cuando NO se logra rechazar la
hipótesis nula, es momento de tomar una de las siguientes opciones:
1.-
Replantear las hipótesis de manera inversa.
2.- Obtener
más datos para poder tener certeza de hacia dónde tiende la estadística. Esto
es tomar decisiones con más información.
Otro grave
error es que tomamos los valores calculados de las muestras y los comparamos de
forma directa, sin considerar que esto, lo único que causa es llevarnos a tomar
decisiones apresuradas de valores puntuales de muestras probabilísticas o no
probabilísticas, que, de repetirse el muestreo, es seguro que las medidas de
tendencia central y dispersión cambiarán, obviamente de manera muy cercana a
las de la muestra anterior. Justo por esa razón se debe someter a una prueba de
hipótesis, para mitigar el riesgo de equivocarnos con los datos disponibles al
momento. Además, este método nos permitirá conocer la probabilidad de acertar y
también la de cometer un error (del Tipo I o Tipo II).
Conclusiones
Siempre es
importante tomar decisiones informadas y cuando de datos se habla, los métodos
cuantitativos son una herramienta útil. La prueba de hipótesis nos permitirá,
con un buen nivel de certeza estadística, evitar un falso positivo que
implicaría rechazar la hipótesis nula cuando era verdadera; en el planteamiento
original del ejemplo de la concesionaria se evitarían gastos y costos
relacionados con la implementación de un proyecto que a futuro es altamente
probable que fracase.
También nos
evita cometer un error de falso negativo que sería, en el mismo ejemplo, no
rechazar la hipótesis nula cuando era falsa, es decir, no invertir en una
región fértil para el proyecto.
Con el
adecuado procesamiento de los datos, dejamos de lado las decisiones importantes
de negocio tomadas con base en un criterio débilmente sustentado, basado en
observaciones e información superficial y nos centramos en aquellas en las que metódica
y sistemáticamente podamos descartar riesgos, es decir, tomar decisiones
informadas y sustentadas.
ANEXOS
Anexo 1.- Conceptos básicos de pruebas de
hipótesis.
Tipos de
error: Ninguna prueba de
hipótesis es 100% cierta. Puesto que la prueba se basa en probabilidades,
siempre existe la posibilidad de llegar a una conclusión incorrecta. Cuando
usted realiza una prueba de hipótesis, puede cometer dos tipos de error: tipo I
y tipo II. Los riesgos de estos dos errores están inversamente relacionados y
se determinan según el nivel de significancia. Por lo tanto, usted debe
determinar qué error tiene consecuencias más graves para su situación antes de
definir los riesgos.
El error tipo
I: Sucede si usted rechaza la hipótesis
nula cuando es verdadera, falso positivo. La probabilidad de cometer un error
de tipo I es α, que es el nivel de significancia que usted establece para su
prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una
probabilidad de 5% de estar equivocado al rechazar la hipótesis nula. Para
reducir este riesgo, debe utilizar un valor menor para α.
Error de tipo
II: Sucede cuando la hipótesis nula es falsa
y usted no la rechaza, falso negativo. La probabilidad de cometer un error de
tipo II es β, que depende de la potencia de la prueba. Puede reducir el riesgo
de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente
potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo
suficientemente grande como para detectar una diferencia práctica cuando esta
realmente exista.
Potencia de
una prueba: Aumentar la
potencia de una prueba es lo mismo que incrementar su sensibilidad y
generalmente conlleva pruebas piloto más amplias (y, por lo general, caras). La
idea fundamental es que de cuantas más observaciones dispongamos, más estrechos
serán los intervalos de confianza. Por lo tanto, más pequeños serán los efectos
que podamos detectar. Existe entonces menor probabilidad a equivocarnos.
Valor p: Probabilidad de equivocarse al aceptar
la hipótesis del investigador. Es decir, la probabilidad de cometer el error
tipo I. Se calcula con las fórmulas para cada tipo de prueba. Para el caso de
prueba Z, es el valor en el eje Z (en desviaciones estándar).
Valor c: El valor crítico se obtiene de las
tablas de distribución y corresponde al punto en el eje Z (en desviaciones
estándar), en el que hay un porcentaje de probabilidad acumulado dado por la
significancia α.
Significancia: La diferencia entre un estadístico de
muestra y un valor hipotético es estadísticamente significativa si una prueba
de hipótesis indica que es muy poco probable que la misma haya ocurrido en
virtud de las probabilidades. Para evaluar la significancia estadística,
examine el valor p de la prueba. Si el valor p está por debajo de un
nivel de significancia (α) especificado (generalmente 0.10, 0.05 o 0.01), puede
decir que la diferencia es estadísticamente significativa y rechazar la
hipótesis nula de la prueba.
Confiabilidad: Simplemente es el nivel de sensibilidad
que podemos tener de la prueba, es decir, en %, la probabilidad de acertar
aceptando la hipótesis alternativa, al ser rechazada la hipótesis nula. Al ser
entonces el complemento de la significancia es igual a 1- α.
Prueba Z: Es una prueba de hipótesis basada en el estadístico Z, que
sigue la distribución normal estándar bajo la hipótesis nula. La prueba Z
más simple es la prueba Z de 1 muestra, la cual evalúa la media de una
población normalmente distribuida con varianza conocida con el valor objetivo
definido como la media teórica o hipotética. Es de gran utilidad cuando el
valor de n que conforman la muestra es mayor a 30 o muy grande.
(Para la muestra de una población completa) |
(Para una población completa) |
Anexo 2.- Pasos para realizar la prueba de hipótesis.
Fuente: creación propia.
Referencias:
1.-
https://economipedia.com/definiciones/hipotesis.html
3.-
http://www.unicornshub.com/wp-content/uploads/2017/05/hipo%CC%81tesis-de-un-proyecto-emprendedor.pdf
4.-
http://lcolladotor.github.io/courses/Courses/MEyAdDG/day2/Pruebas%20de%20Hip%C3%B3tesis.pdf
5.-
6.-
7.- https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica
8.- https://yoquieroaprobar.es/5_bachiller/4/clasesdeapoyo/hipotesis_teoria.pdf
LOS DATOS SE CONVIERTEN EN UN ALIADO IMPORTANTE, PERO SÓLO CUANDO SABEMOS QUÉ HACER CON ELLO.
ResponderEliminarEsta frase lo primero que hace reflexionar es que no es un ejercicio habitual en muchos profesionistas el transformar los datos en información; y cuando se hace no siempre se seleccionan las herramientas de análisis correctas, o peor aún no siempre se usan de la manera correcta.
En si es un ejercicio que suele ser complejo para aquellos que solo usábamos solamente la estadística descriptica dentro del análisis de nuestros datos, lo cual plantea la urgente necesidad de desarrollar esta competencia laboral, como un plus que me ayudara a tomar decisiones fundamentadas en hechos concretos y no en corazonadas.