El modelo de resultados potenciales
Adelanto del libro de econometría con Python en el que estoy trabajando. Con mucho cariño y ahora con bloque en LaTeX que se ven geniales.
La econometría moderna sufrió un cambio de paradigma a partir del modelo de resultados potenciales. Es este modelo el que permite pensar en términos de experimentos aún cuando los datos son observacionales para obtener inferencia causal.
El truco está en pensar en términos de universos paralelos, para identificar los efectos que tiene algún tratamiento.
Cómo se hacen los experimentos en la vida real
Desde que soy un niño siempre quise ser científico. Crecí con shows que mostraban personas ingeniosas haciendo experimentos interesantes para resolver sus problemas.
No fue sino hasta que fui un adolescente que me di cuenta de que mi papá era un científico de la vida real. Él me pedía que le ayudara a revisar el inglés de sus artículos, que son la forma en que se comunican los resultados científicos.
Lo interesante es que es precisamente en los estudios agrícolas donde nace la tradición de hacer experimentos para identificar los efectos que tiene un tratamiento sobre un campo.
El procedimiento es el siguiente: supón que deseas conocer si un insecticida es efectivo, i.e. logra matar muchos insectos. Tu objetivo no es realmente matar insectos, lo que tú deseas en realidad es aumentar tu producción de tomates, o lo que sea que estás sembrando.
Algo de notación
Para este ejercicio la variable resultado es el nivel de producción del campo, que denotamos con $Y$.
Llamamos tratamiento al insecticida y lo denotamos con $D$, que es una variable dummy, es decir, sus valores pueden ser $1$ o $0$, según si se aplica o no el tratamiento.
Las variables $Y$ y $D$ son vectores que contienen diferentes unidades de medición $Y_i$ y $D_i$, respectivamente. La $i$ es un indicador que nos ayuda a identificar a un invernadero específico. Puedes imaginar que tenemos un campo con $N$ invernaderos (si tienes problemas para imaginar $N$ piensa en 100 hasta que alguien te diga lo contrario) y que todos están numerados del $1$ al $N=100$. Entonces $i$ puede ser el invernadero $1$ o el $100$, o cualquier otro número intermedio.
Puede ser que algunos invernaderos reciban tratamiento. Esto lo denotamos con $D_i = 1$. Por lo tanto, cuando el invernadero $i$ no recibe tratamiento escribimos $D_i = 0$.
Entonces tenemos dos tipos de valores para la producción del invernadero $i$.
Si nunca habías visto una fórmula con llaves así, no te preocupes. Del lado derecho estamos planteando dos escenarios para $Y_i$ que dependen del valor de $D_i$. Estos dos valores no pueden darse al mismo tiempo: no puedes ponerle y a la vez no ponerle insecticida a un invernadero.
Para distinguir cada uno de estos dos escenarios le incluimos un número adicional en el superíndice. Este no es un exponente, es una forma de indicar si la producción proviene de un invernadero con tratamiento o sin él. Entonces $Y_{i}^1$ nos dice el nivel de producción del invernadero $i$ si se aplica el insecticida y $Y_{i}^0$ es el nivel de producción del mismo invernadero si no se le aplicara este tratamiento.
Como puedes imaginar, no podemos observar $Y_{i}^1$ y $Y_{i}^0$ al mismo tiempo, pues están en diferentes universos. Pero esto es justo lo que necesitamos medir si deseamos medir el efecto que tiene el insecticida en nuestro invernadero. Si pudiéramos acceder a los dos universos al mismo tiempo, la medición del efecto sería tan fácil como tomar la diferencia del rendimiento con insecticida y sin insecticida.
Para este caso, idealmente estaríamos esperando un número positivo, que nos indica que el insecticida incrementa nuestro rendimiento. Denotamos entonces al efecto del tratamiento con $\delta_i$.
No hagas una diferencia de medias simple
¿Has seguido el hilo hasta el momento? Que bueno, porque aquí es la parte en la que la mayoría se equivoca.
No podemos ir a visitar universos alternos para revisar el efecto de nuestro tratamiento, pero sí podemos observar lo que sucede en los invernaderos que aplican el insecticida y compararlos con lo que no lo aplican.
Continúa leyendo con una prueba gratuita de 7 días
Suscríbete a Marionomics: Economía y Ciencia de Datos para seguir leyendo este post y obtener 7 días de acceso gratis al archivo completo de posts.