TEORIA DE LAS PROBABILIDADES UNIDAD V

En conclusión, la teoría de las probabilidades es la base de la esta- ... dentes de tránsito en una ruta, el resultado de un partido de fútbol o el número de ...
6MB Größe 102 Downloads 324 vistas
UNIDAD V TEORIA DE LAS PROBABILIDADES 1.- Introducción Hasta ahora, se ha desarrollado una estadística descriptiva, es decir el tratamiento de datos consistió en una descripción a través de tablas, gráficas y medidas resumidas (de posición y de dispersión). Por ejemplo, un negocio posee 100 cuentas por cobrar. Un auditor toma una muestra de 15 cuentas y obtiene la media y el desvío típico de los montos. El análisis se limita a la muestra, sin hacer ningún tipo de generalización hacia la población o sea a las 100 cuentas. Si el auditor en base a los montos por cobrar de la muestra desea estimar la media de montos de las 100 cuentas deberá utilizar métodos y técnicas de la inferencia estadística. Toda conclusión a la que llegue el auditor respecto a las 100 cuentas estará basado en una generalización que es mucho más amplia que la conclusión que obtiene de las 15 cuentas; pero esa generalización no es totalmente válida, el auditor debe determinar “la probabilidad” de que sea verdadera. La inferencia estadística ayuda a la toma de decisiones en condiciones de incertidumbre, ésta incluye afirmaciones y generalizaciones sobre la “probabilidad de su validez”. En conclusión, la teoría de las probabilidades es la base de la estadística inferencial (1). El desarrollo de las teorías de las probabilidades se debe a la atención prestada a los juegos de azar en el siglo XVII en Francia e Inglaterra (2).

2.- Conceptos básicos Las probabilidades existen porque hay fenómenos aleatorios. Un fenómeno es aleatorio cuando su ocurrencia está determinada por factores fortuitos o por el azar. En cambio, en los fenómenos deterministas hay seguridad de la ocurrencia o no de un hecho.

1. Levin, Richard, Estadística para Administradores. Prentice Hall. 2. Chao, Lincoln, Estadística para las Ciencias Administrativas, Mc. Graw Hill.

163

El resultado de la tirada de una moneda o de un dado es un ejemplo clásico de un fenómeno aleatorio ya que situaciones aleatorias determinarán si ocurre cara o sello en la moneda o, los números 1, 2, ..., 6 en el dado. También son ejemplos de fenómenos aleatorios el número de accidentes de tránsito en una ruta, el resultado de un partido de fútbol o el número de defectuosos de un producto en un proceso productivo.

2.1.- Evento aleatorio - Espacio muestral - Experimento a) Evento aleatorio: es uno o varios de los resultados posibles que se obtienen al hacer algo, es decir son los resultados conseguidos a través de un experimento. b) Experimento: es un proceso, operación o actividad que producen un evento. c) Espacio muestral: es el conjunto de todos los resultados posibles de un experimento. El espacio muestral es un conjunto universal. Ejemplo: Considérese los posibles resultados al arrojar un dado: - Espacio muestral (U)

U

=

{1, 2, 3, 4, 5, 6}

Todos los posibles resultados (las 6 caras del dado) - Experimento: arrojar el dado - Eventos o Resultados posibles: cada cara del dado.

2.2.- Eventos aleatorios simples y compuestos Un experimento puede implicar muchos y hasta un número infinito de resultados. Ya sea dijo que un resultado de un experimento constituye un evento aleatorio o suceso aleatorio. Los eventos pueden ser simples o compuestos.

164

a) Un evento aleatorio simple es el resultado de un solo ensayo en particular. Supóngase el experimento de tirar dos monedas para determinar la ocurrencia del número de caras (c) o sellos (s). El espacio muestral es: U = {CC; CS; SC; SS}, o sea hay 4 resultados posibles. Cada uno de estos resultados es un evento simple. b) Un evento compuesto contiene dos o más eventos simples. En el ejemplo anterior, los resultados de obtener por lo menos una cara son CC; CS; SC. Esto es un evento compuesto que es un subconjunto del espacio muestral porque está formado por 3 eventos simples distintos para un mismo resultado. Cada uno de los eventos simples constituye un punto muestral. En el ejemplo desarrollado hay 4 puntos muestrales:

CC CS SC SS

165

Actividad Nº 24 1) Un encuestador entrevista a 4 personas para conocer si está de acuerdo (S) o no (N) con la reelección presidencial. a) ¿Cuántos posibles resultados hay? b) ¿Cuál es el espacio muestral de este experimento? 2) En un establecimiento secundario, se proyecta crear el nivel superior no universitario. Se estudian 3 posibles orientaciones: carreras de formación docente (D), carreras de formación técnica (T) y/o carreras de formación artística (A). Observar el diagrama e indicar la zona o zonas de los siguientes posibles eventos. a) que se implementen únicamente carreras técnicas, b) que no se implementen ninguna de las 3 orientaciones, c) que no se implementen ni carreras técnicas ni artísticas, d) que no se implementen carreras docentes, e) que se implementen las 3 orientaciones. D

T

5

2 1 3

6 4

7

8 A

3) En el experimento de arrojar un dado, se sabe que el espacio muestral es U = {1,2,3,4,5 y 6}. Indicar si los siguientes eventos son simples o compuestos.

166

a) b) c) d)

El El El El

evento evento evento evento

de de de de

obtener obtener obtener obtener

un cuatro. un número par. un número mayor que 3. un número menor que 2.

167

3.- Los tres enfoques de la Probabilidad Los conceptos de probabilidad están relacionados con los 3 enfoques diferentes: el clásico, el de frecuencia relativa y el subjetivo.

3.1.- Probabilidad clásica La probabilidad clásica, llamada también “teórica” o “matemática”, de que un evento ocurra se define como:

Número de resultados favorables P (E) =

(1) Número de resultados posibles

Por ejemplo: ¿Cuál es la probabilidad de que en un mazo de naipes de la baraja española se obtenga una sota? 4 P (E) =

1 =

40

=

0,1

10

- El evento (E) es obtener una sota. - El número de resultados posibles es 40 que es la totalidad de naipes en la baraja española. - El número de resultados favorables es 4 ya que en la baraja hay 4 sotas. Otro ejemplo: Un cliente de una relojería desea comprar un despertador. Tiene la posibilidad de elegir entre 300 relojes marca A, 12 marca B y 8 marca C. ¿Cuál es la probabilidad de que compre un reloj marca C? 8 P (C) =

=

0,16

50 Obsérvese que en este enfoque todos los posibles resultados se conocen de antemano, por eso la probabilidad clásica se denomina “probabili168

dad a priori”. El espacio muestral está constituido: por resultados equiprobables puesto que cada resultado tiene la misma probabilidad de ocurrencia. Sin embargo, no en todos los problemas se pueden indicar de antemano las probabilidades de los experimentos, por ejemplo, la probabilidad de que una persona viva hasta los 70 años, la probabilidad de que las ventas de una empresa aumenten en los próximos tres meses, probabilidad de ocurrencia de un accidente de tránsito, etc. En estos casos son útiles los otros dos enfoques.

3.2.- Frecuencia relativa de ocurrencia Este enfoque tiene su origen en Inglaterra durante la década de 1800 cuando los estadísticos intentaban encontrar un fundamento teórico para calcular el riesgo de las pérdidas en los seguros de vida y comerciales, comenzaron definiendo las probabilidades de los datos estadísticos referidos a nacimientos y muertes(3). El enfoque de la frecuencia relativa define la probabilidad de dos maneras: a)Frecuencia relativa observada de un evento en un gran número de ensayos. Se determinan las frecuencias de que algo ha sucedido en el pasado y mediante esta cifra se puede estimar la probabilidad de que nuevamente ocurrirá en el futuro. Se requiere de la observación y recopilación de datos y no está implícita ninguna suposición de igualdad de probabilidades, por ello este enfoque también se denomina “probabilidad empírica”. Por lo tanto, de acuerdo a este enfoque, la probabilidad de que ocurra el evento (E) es: Número de observaciones de E P (E) =

n (E) =

Tamaño de la muestra n (E) = frecuencia

(2) n

n(E)/n = frecuencia relativa

Ejemplo: Una muestra aleatoria de empresas industriales con un total de 10.000 empleados registró 300 accidentes de trabajo en un período de 3. Levin, Richard op. cit

169

12 meses. ¿Cuál es la probabilidad de ocurrencia de accidentes de trabajo durante este año? 300 P (E) =

= 0,03 10.000

Este valor de probabilidad está calculado sobre una muestra, por eso es una estimación del valor verdadero. Además, se hace la suposición de que los parámetros de seguridad industrial no han variado con respecto al período anterior en que se tomó la muestra. b) La proporción de las veces que un evento ocurre en el largo plazo cuando las condiciones son estables. Esta segunda característica de la probabilidad de frecuencia relativa indica que a más ensayo hay mayor exactitud. Un ejemplo clásico es el lanzamiento de una moneda correcta. La probabilidad de que ocurra cara o sello es 0,50 (1/2). Si se arroja 50 veces, la probabilidad de cara esta lejos de 0,5. Al aumentar el número de lanzamientos, hay una mayor estabilidad y mayor probabilidad de acercarse a 0,50. En resumen, si un experimento se realiza n veces con f éxitos, se supone que la frecuencia relativa f/n tiende a un límite cuando n aumenta. Entonces, la probabilidad de éxito es:

lim f / n

n of

La probabilidad no está dada por este límite, lo que puede hacerse es estimarla a partir de una muestra grande.

3.3.- Probabilidad subjetiva Los dos enfoques anteriores dan como resultados valores de probabilidad objetivos porque indican la proporción o porcentaje de ocurrencia del evento a largo plazo. En cambio, el enfoque subjetivista, la probabilidad de un evento es el grado de confianza que tiene una persona de que ese evento ocurra en base a la evidencia disponible, es un juicio personal. Un

170

enfoque personalista es apropiado cuando hay probabilidad de que el evento ocurra (o no) una única vez o muy pocas veces. Muchas decisiones administrativas para problemas particulares requieren de probabilidades subjetivas ya que no existen situaciones idénticas anteriores como referencias; de esta manera debe contar con toda la información sobre el tema a efectos de tomar una decisión acertada. El siguiente ejemplo ilustra muy bien este enfoque. Un juez debe decidir si permite o no la instalación de una planta de energías nuclear en una zona donde existe una falla geológica. Puede preguntarse cuál será la probabilidad de que ocurra un grave accidente nuclear en ese lugar. El hecho de que no haya frecuencia relativa de evidencia de accidentes anteriores en el lugar no lo exime de tomar la decisión. Deberá recopilar toda la información posible y actuar con gran sabiduría para determinar la probabilidad o no de un accidente nuclear (4).

4. Levin, Richard, op. cit.

171

Actividad Nº 25 1) Para cada uno de los siguientes casos, indicar cuál de los 3 enfoques es el más apropiado (clásico, de frecuencia relativa o subjetiva) es el más apropiado para determinar el valor de probabilidad. a) b) c) d)

La probabilidad de que Ud. efectúe un viaje a Europa este año. La probabilidad de que aparezca un número par al tirar un dado. La probabilidad de anotar un gol en un partido de fútbol. La probabilidad de que un producto elegido al azar de un pedido grande resulte defectuoso. e) La probabilidad de que salga el 0 en la ruleta. 2) Elabore ejemplos de determinación de probabilidad con los tres enfoques aplicados a problemas de la Administración o Economía.

172

4.- Axiomas de Probabilidad Un axioma o postulado es una declaración que se acepta sin prueba. En general, el valor de probabilidad de un evento está entre 0 y 1. 0 < P (E) < 1 De aquí se desprende que: a) P (E) > 0: La probabilidad de cualquier evento debe ser siempre un valor positivo. Cuando la probabilidad es cero, significa que el evento no ocurrirá. b) P (E) < 1: Significa que la probabilidad de un evento nunca puede ser mayor que 1. c) P (U) = 1: Significa que hay certeza que el evento ocurrirá. U indica el espacio muestral que incluye todos los resultados posibles. P (E) + P (E’) = 1 P (E) probabilidad de que ocurra el evento E. P (E’) probabilidad de que no ocurra el evento E por lo tanto, P (E) = 1 - P (E’)

y

complemento de E

P (E’) =

complemento de E’

P (E) + P (E’) = 1 o

1 - P (E)

P (E u E’) = U (conjunto universal)

173

5.- Reglas de Probabilidad 5.1.- Eventos mutuamente excluyentes y no excluyentes. Reglas de la adición a) Eventos mutuamente excluyentes Dos eventos A y B son mutuamente excluyentes cuando la probabilidad de A excluye la probabilidad de ocurrencia de B y viceversa. Esto significa que ocurre A o B pero no ambos. Por lo tanto:

o

P (A o B) = P (A) + P (B) P (A u B) = P (A) + P (B)

(3)

Esta regla se denomina regla especial de la adición. Como A y B no tienen elementos en común, entonces A B = 0. Ejemplos: Determinar la probabilidad de obtener una sota en un rey en las 40 cartas de la baraja española. P (S) = probabilidad de sota P (R) = probabilidad de rey. P (S o R) = P (S u R) = P (S) + P (R)

4 4 8 40 40 40 P (S o R) =

1 = 0,02 5

Utilizando el diagrama de Venn S

R

4 0,10 40

4 0,10 40

P (S) + P (R) = 0,20 P (otra carta) = 1 - P (S u R) = 1 - 0,20 = 0,80

0,80

174

* La regla de la adición se puede aplicar para tres o más eventos. b) Eventos no excluyentes Dos eventos A y B no son mutuamente excluyentes cuando es posible que ocurran ambos. Por ejemplo si se desea determinar la probabilidad de obtener una sota o una carta de copa. Los eventos sota y copa pueden ocurrir simultáneamente ya que se puede obtener una sota de copa. Entonces sota y copa son eventos no excluyentes. La fórmula (3) debe modificarse para evitar un conteo doble, deberá reducirse la posibilidad de ocurrencia de sota y copa. Entonces:

o

P (A o B) = P (A) + P (B) - P (A y B) P (A u B) = P (A) + P (B) - P (A n B)

(4)

Esta es la regla general de la adición. Pueden ocurrir A o B o ambos. Recordar que si son mutuamente excluyentes (A n B) = Æ Ejemplo: P (S) = probabilidad de sota P (C) = probabilidad de copa P (S o C)

=

P (S) + P (C) - P (S y C)

4 10 1 13   40 40 40 40 S

C los eventos se intersectan parcialmente

S y C

Otros ejemplos: - En un negocio de 40 empleados hay 8 cajeros, 20 vendedores, 7 administrativos y 5 empleados de maestranzas. 5 cajeros, 14 vendedores, 4 administrativos y 2 son empleados de maestranzas son varones.

175

Sean C = Cajero, A = Administrativo, V = vendedores, M = empleado de maestranza, H = hombre, F = mujer. Se elige un empleado al azar. Determinar: a)la b)la c) la d)la

probabilidad de que sea vendedor o administrativo. probabilidad de que no sea vendedor. probabilidad de que sea cajero o mujer, probabilidad de que sea empleado de maestranza o varón.

a) P (V o A) = P (V) + P (A)

20 7 27  0,675 (eventos excluyentes) 40 40 40 b) P (V’) = P (C) + P (A) + P (M)

8 7 5 20   0,50 (eventos excluyentes) 40 40 40 40 o bien:

P (V' ) 1

20 0,50 40

c) P (C o F) = P (C) + P (F) - P (C y F)

P (Cop)

8 15 3 20   0,50 (eventos no excluyentes) 40 40 40 40

d) P (M o H) = P (M) + P (H) - P (M y H)

P (M y H)

5 25 2 28   0,70 (eventos no excluyentes) 40 40 40 40

- La probabilidad de que una persona invierta en acciones de la compañía A es 0,20 y en acciones de la compañía B 0,30 y en ambas A y B, 0,10. Cuál es la probabilidad de que: 176

a)Invierta en A o en B o en ambas. b)Invierta en A o en B pero no en ambas. c) No invierta en ninguna de las dos. A 0,10

B 0,10

0,10 0,60

a)P (A o B)

= P (A) + P (B) - P (A y B) = 0,20 + 0,30 - 0,10 = 0,50 (sucesos no excluyentes)

b)P (A o B)

= P (A o B) - P (A y B) = 0,40 - 0,10 = 0,30 (sucesos excluyentes)

c) P (ni A ni B) = 1 - 0,40 = 0,60

177

Actividad Nº 26 1) El Sr. Gómez tiene una suma de dinero y piensa gastar el mismo en tres cosas: en una computadora (C), en vacaciones (V) o en una video grabadora (G). Las probabilidades de los tres eventos son respectivamente 0,28; 0,20 y 0,35. a) ¿Cuál es la probabilidad de que gaste el dinero en una de estas 3 cosas? b) ¿Cuál es la probabilidad de que gaste el dinero en otra cosa distinta (hacer un diagrama de Venn). 2) En una caja hay 30 artículos marca X, 15 marca Y, 35 marca Z. Entre los artículos X hay 10 defectuosos, entre los artículos Y hay 5 defectuosos y entre los de marca Z hay 8 defectuosos. Sea P (D) = defectuoso y P (D’) = bueno. Si se selecciona al azar un producto, cuál es la probabilidad de que: a) b) c) d)

Sea defectuoso Sea Y o Z. Sea X o defectuoso o ambos Sea Z o bueno o ambos

3) Las probabilidades de que un vendedor de automóviles venda en una semana cero, uno, dos, tres, cuatro o cinco y más automóviles son: 0,05; 0,10; 0,18; 0,25; 0,20 y 0,22 respectivamente. Cuál es la probabilidad de que venda en una semana. a) dos o más automóviles; b) tres o menos automóviles.

178

5.2.- Eventos independientes y dependientes. Reglas de la multiplicación a) Eventos independientes Dos eventos A y B son independientes cuando la ocurrencia de A no afecta a la probabilidad de que ocurra B y viceversa. Si A y B son eventos independientes, la probabilidad de A y B es igual al producto de sus probabilidades respectivas.

o

P (A y B) = P (A) P (B) P (A n B) = P (A) P (B)

(5) Regla especial de la multiplicación.

P (A B) indica que tanto A como B ocurren, por lo tanto la intersección es una probabilidad conjunta. Ejemplo: se arroja una moneda dos veces, cuál es la probabilidad de que en cada tirada aparezca cara. Se sabe que P(C) Sea

1 1 0,50 ; P (S) 0,50 2 2

C1 =

evento de cara en la primera tirada.

C2 =

evento de cara en la segunda tirada.

La probabilidad conjunta es: P (C1 n C2) = =

P (C1) P (C2) (0,50) (0,50)= 0,25

Las probabilidades conjuntas se pueden mostrar a través de un diagrama de árbol. Considérese el lanzamiento de una moneda.

179

1 lanzamiento

P (C1) 0,50

2 lanzamiento

Probabilidades conjuntas

P (C1) u P (C2 ) 0,25

P (C2 ) 0,50

P (C1) u P (S 2 ) 0,25 P (S 2 ) 0,50 P (S 2 ) 0,50

P (S1) u P (S 2 ) 0,25

P (C2 ) 0,50

P (S1) u P (C2 )

P (S1) 0,50

0,25 1

La probabilidad de cara, P (C) = 0,50 y la probabilidad de sello, P (S) = 0,50. Cada una de estas probabilidades es una probabilidad marginal o incondicional, es decir la simple probabilidad de que ocurre un evento. Por lo tanto, la probabilidad conjunta en condiciones de independencia estadística es el producto de las probabilidades marginales. Otro ejemplo: Considérese en una baraja española, la probabilidad de que se obtengan una sota y luego un rey teniendo en cuenta que después de sacar la primera carta se la repone. Por lo tanto: P (S n R)

= P (S) . P (R)

4 4 u 40 40

1 0,01 100

Obsérvese que la P (R) es la misma que P(S) porque al haber reposición no está condicionada por la ocurrencia de S. b) Eventos dependientes Dos eventos A y B son dependientes cuando la ocurrencia de A afecta la probabilidad de ocurrencia de B y viceversa. Si A y B son eventos dependientes, la probabilidad de que ocurran A y B es igual a la probabilidad de A por la probabilidad de B con la condición de que haya ocurrido A. P (A n B)

= 180

P (A) . P (B/A)

(6)

P (B/A) denota la probabilidad condicional de B dado que ocurre A. La ecuación (6) se denomina regla general de la multiplicación. Es general porque se aplica tanto a eventos dependientes como independientes. Si los eventos son independientes P (B/A) = P (B). De la fórmula (6) se obtiene la probabilidad condicional P (B/A):

P (A ˆ B) (7) P (B/A) = P (A) Ejemplo: Considérese el mismo ejemplo anterior de obtener una sota y luego un rey en una baraja española, pero en este caso al sacar la primera carta no se la repone. Por lo tanto. P (S o R) = P (S) . P (R / S)

4 4 u 40 39

16 4 0,0103 1560 390

En este caso la P (R) si está condicionada por P (S) debido a que no hubo reposición. Al sacar la primera carta P(S) = 4/40, al sacar la segunda quedan 39, por lo tanto P(R/S) = 4/39.

Probabilidades conjuntas utilizando tablas de contingencias Para determinar las probabilidades conjuntas también se pueden utilizar una tabla de contingencia. En la asignatura Contabilidad de la carrera de Contador Público de la Universidad Norte se analiza el rendimiento de los alumnos de 1º año considerando si provienen de colegios secundarios con carreras comerciales o de otras carreras. Sea: B = rendimiento bueno B’= rendimiento pobre C = provienen de colegios de carreras comerciales. C = provienen de colegios con otras carreras. Se muestran las probabilidades conjuntas en la siguiente tabla:

181

CARRERA Rendimiento

C

C’

Total

B

0,08

0,12

0,20

B’

0,32

0,48

0,80

Total

0,40

0,60

1,00

- En cada celda se anotan las probabilidades conjuntas P(B n C); P (B’n C); P (B n C’); P (B’ n C). - El total de cada fila y de cada columna son las probabilidades marginales P (C) = 0,60; P (C’) = 0,40; P (B)= 0,20; P (B’) = 0,80. A través de esta tabla se puede determinar si los eventos rendimiento y carrera son independientes o no. En este caso son independientes ya que cada probabilidad conjunta es igual al producto de las probabilidades marginales. Esto indica que el rendimiento no tiene nada que ver con la carrera secundaria. Se puede demostrar de la siguiente manera: P (B) = 0,20 P (B n C) P (B/C) =

0,08 =

P (C)

= 0,20 0,40

P (B/C) = P (B) Supóngase que se analiza la misma situación en la Universidad Sur. Se confeccional la siguiente tabla de contingencia o de probabilidades conjuntas:

182

CARRERA Rendimiento

C

C’

Total

B

0,15

0,05

0,20

B’

0,25

0,55

0,80

0,40

0,60

1,00

Total

En este caso, los eventos son dependientes, es decir que el rendimiento si depende de la carrera. Las probabilidades conjuntas no son iguales al producto de las probabilidades marginales. Esta situación de dependencia se puede comprobar de la siguiente manera: P (B) = 0,20 P (B C) P (B/C) =

0,15 =

P (C)

= 0,375 0,40

P (B/C) z P (B) Los ejemplos anteriores sirvieron para analizar la dependencia o independencia de los eventos. En el siguiente ejemplo se verá como se confecciona una tabla de contingencia. Se presentan 100 postulantes, 40 mujeres (M) y 60 varones (V) para un examen de admisión a distintos cargos en una empresa. De las mujeres aprobaron (A) el 90%, mientras que el 20% de los varones desaprobaron (D) el examen. P (M) = 0,40

P (V) = 0,60

P (A/M) = 0,90

P (A/V) = 0,80

P (D/M) = 0,10

P (D/V) = 0,20

183

M) P(

P(V

=

)=

P(A/M) = 0,90

P(M) . P(A/M) = 0,40 (0,90) = 0,36

P(D/M) = 0,10

P(M) . P(D/M) = 0,40 (0,10) = 0,04

P(A/V) = 0,80

P(V) . P(V/A) = 0,60 (0,80) = 0,48

0 0,4

0,6 0

0,12 P(D/V) = 0,20

P(V) . P(D/V) = 0,60 (0,20)=

Probabilidades Conjuntas

Primero se confeccionará un diagrama de árbol:

1,00 Ahora se construirá una tabla: Resultado A

D

Total

M

0,36

0,04

0,40

V

0,48

0,12

0,60

0,84

0,16

1,00

Sexo

Total

Determinar a)P (A)

b)

P (V n D)

C) P (V/A)

e)Si sexo y calificación son independientes. a)P (A) = 0,84

b)

P (V n D) = 0,12

P (V n A) c) P (V/A) =

0,48 =

= 0,57

P (A)

0,84

P (A n V)

0,48

d)P (A/V) =

= P (V)

= 0,80 0,60 184

d)

P (A/V)

P (M n A) e)P (M) = 0,40

P (M/A) =

0,36 =

P (A) P (M/A) = P (M) no son independientes.

185

= 0,43 0,84

Actividad Nº 27 1) Una bolsa contiene 30 tarjetas: 8 blancas, 10 rojas, 12 azules. Se extraen dos tarjetas sin reemplazos, ¿Cuál es la probabilidad de extraer? a) ¿Dos tarjetas azules una después de la otra? b) ¿Una blanca y una roja después? c) ¿Dos del mismo color? 2) Resolver el ejercicio anterior con reposición de tarjetas. 3) Dos divisiones de productos distintos de una empresa son Alfa y Beta. Se estima que la probabilidad de que productos Alfa tenga un margen de utilidad del 10% este año es 0,30; la probabilidad de que Beta tenga un margen de utilidad del 10% es 0,20 y la probabilidad de que ambos productos tengan un margen de utilidad del 10% es 0,06: a) ¿Cuál es la probabilidad de que ambos productos tengan la utilidad del 10%? b) ¿Cuál es la probabilidad de que Beta tenga el margen de utilidad del 10% dado que Alfa alcanza ese criterio de ganancia? c) Aplicar una prueba apropiada para determinar si el logro de utilidades de ambos productos es estadísticamente independiente. 4) Un profesor de estadística sabe por experiencia anterior que un alumno que estudia regularmente la asignatura tiene una probabilidad de aprobar del 0,80, mientras que el alumno que no lo hace regularmente tiene una probabilidad del 0,20 de aprobar. El docente sabe que el 60% de los estudiantes estudian regularmente. Si un estudiante aprueba la asignatura, ¿cuál es la probabilidad de que haya estudiado regularmente? Sea A = aprobó, R= Estudia regularmente. 5) La siguiente tabla de probabilidad conjunta muestra las reacciones de los votantes ante un nuevo decreto presidencial:

186

REACCIÓN AFILIACION

P.J.(J) UCR (R) OTROS (O) TOTAL

A FAVOR NEUTRAL (F) (N) 0,30 0,125 0,125 0,55

0,05 0,075 0,025 0,15

EN CONTRA (C)

TOTAL

0,05 0,15 0,10 0,30

0,40 0,35 0,25 1,00

I) Con referencia a la tabla determinar las siguientes probabilidades: a) de que el votante esté en contra, b) de que el votante sea afiliado del P.J. y esté en contra, c) de que el votante sea afiliado a otros partidos políticos. d) de que el votante esté a favor del decreto dado que pertenece a la U.C.R. e) de que el votante sea del P.J. o de la U.C.R. f) de que el votante sea de la U.C.R. o sea neutral. II) ¿Son afiliación y reacción eventos independientes?

187

6.- Reglas de conteo En el enfoque clásico para determinar la probabilidad se requiere del número total de posibles resultados. En problemas sencillos es posible contar todos los posibles resultados, pero en otros se necesita del uso de los métodos de combinatoria (permutaciones, variaciones y combinaciones).

6.1.- Regla de la multiplicación Esta regla puede considerarse bajo dos situaciones: a)Si se realizan un cierto número (n) de operaciones o actos, y cada operación o acto puede realizarse en el mismo número de formas (k), el número total de posibles resultados para n operaciones o actos: (k) . (k) ... (k) = kn Ejemplo: se lanzan 4 monedas para determinar cuántas caras salen. Hay 4 actos y cada uno tiene dos posibles resultados (formas): cara o sello. Entonces, el total de posibles resultados para los 3 actos es: kn = 24 = 16 posibles resultados Listando los resultados se tiene: CCCC

SCCC

SSCS

SCSC

CCCS

CCSS

SCSS

CSCS

16

CCSC

SSSS

CSSS

CSSC

Resultados

CSCC

SSSC

SSCC

SCCS

b)Si hay n actos u operaciones que pueden realizarse en k1, k2, .... kn formas, respectivamente, el número total de posibles resultados diferentes para los n actos u operaciones es:

188

(k1) . (k2) .... (kn) Ejemplo: Un menú consta de 3 comidas, 2 tipos de bebidas y 2 tipos de postres. ¿De cuántas formas posibles puede seleccionarse dicho menú? (3) (2) (2) = 12 formas posibles Diagrama de árbol Comidas

Bebidas

Postres

Resultados

P1

C1 B1 P1

P2

C1 B1 P2

P1

C1 B2 P1

P2

C1 B2 P2

P1

C2 B1 P1

P2

C2 B1 P2

P1

C2 B1 P1

P2

C2 B2 P2

P1

C3 B1 P1

P2

C3 B1 P2

P1

C3 B2 P1

P2

C3 B2 P2

B1 C1 B2

B1 C2 B2

B1 C3 B2

6.2.- Permutaciones Una permutación es un arreglo ordenado de todos los n elementos de un conjunto. 189

Pn = n (n-1) (n-2) (n-3) ... (3) (2) (1)

n

Pn = n! (8)

n

n! factorial de n Si n = 0, 0! = 1 Ejemplo: Encontrar el número total de permutaciones del conjunto de letras a b c tomadas todas a la vez. P3 = 3! = 3 x 2 x 1 = 6 permutaciones

3

abc acb

bac bca

cab cba

6.3.- Variaciones Una variación es una forma especial de permutación. Se refiere a un arreglo ordenado de r elementos tomados de conjunto de n elementos. Es un arreglo de una parte de los elementos. El número total de posibles variaciones es:

n! n  r !

V n r

(9)

Ejemplo: Encontrar el número total de variaciones del conjunto de letras abc tomadas de dos a la vez: n=3

V

3 2

o

ab ba

r=2

3! 3 x 2 x1 3  2 ! 1 V2

3

ac ca

=

6

3x2

=

bc cb

6 formas posibles. Obsérvese que como aquí interesa el orden, ab no es lo mismo que ba190

6

Otro ejemplo: En un concurso hay 3 premios (primero, segundo y tercero) para 10 participantes. ¿De cuántas formas pueden obtenerse los 3 premios? n = 10 r = 3. Hay 10 formas de obtener el primer premio, 9 de obtener el segundo y 8 el tercero. Por lo tanto: V3 =

10

o bien

(10) (9) (8) =

720 formas posibles

10! (10) (9) (8) (7! ) 10  3 ! 7!

V 10 3

720

6.4.- Combinaciones Una combinación es un arreglo de r elementos tomados de un conjunto de n elementos sin importar el orden. El número total de posibles combinaciones es:

n! r! n  r !

C n r

(10)

Ejemplo: Encontrar el número total de combinaciones del conjunto de letras abc tomadas de a dos a la vez. n=3

C 3 3

r=2

3! (3) (2) (1) 2! 3  2! ! (2) (1) Ÿ Ÿ

ab - ac - bc

3

3 formas posibles

Obsérvese que como aquí no interesa el orden ab = ba Otro ejemplo: Entre 15 personas, se desea formar una comisión de 5 miembros. ¿De cuántas maneras posibles puede formarse dicha comisión?

C 15 5

15! 5! 15  5 ! 191

3.003

El número total de combinaciones posibles de un conjunto de n elementos tomados todos a la vez es igual a 1. Cn = 1

n

6.5.- Aplicación de permutaciones y combinaciones para determinar probabilidades Sea el siguiente problema: Una caja contiene 15 tarjetas, 6 rojas y 9 verdes. Se sacan 4 tarjetas aleatoriamente. Determinar la probabilidad de que: a)Sean 4 rojas o 4 verdes. b)Sean 2 rojas y 2 verdes. 1) Se deben calcular el número total de posibles resultados (combinaciones) de sacar 4 tarjetas entre las 15.

C 15 4

15! 4! 11!

1.365

2) A continuación se resuelven los puntos a y b. a) El número de combinación de 4 rojas tomadas de las 6 tarjetas rojas es:

C 6 4

6! 4! 2!

15

El número de combinaciones de 4 tarjetas verdes tomadas de las 9 verdes es:

C 9 4

9! 4! 5!

126

Por regla de la adición, el número total de combinaciones de 4 rojas o 4 verdes es: 6

C4 +

9

C4 =

15 + 192

126 =

141

La probabilidad de sacar 4 rojas y 4 verdes es:

C  C

R (4R o 4V)

6 4

9 4

C

141 1.365

0,103

15 4

b) El número de combinaciones de 2 rojas entre 6 tarjetas de ese color es:

C 6 2

6! 2! 4!

15

El número de combinaciones de 2 verdes entre 9 tarjetas de ese color es:

C 9 2

9! 2! 7!

36

Por regla de la multiplicación, el número total de combinaciones de 2 rojas y 2 verdes es: -6C2 . 9C2 = 15 . (36) = 540 La probabilidad de sacar 2 rojas y 2 verdes es:

C ˜ C

P (2R y 2V)

6 2

9 2

C 15 4

193

540 1.365

0,396

Actividad Nº 28 1) Una prueba consiste en 10 preguntas de verdadero/falso. ¿De cuántas formas posibles puede resolverse la prueba? 2) Un contratista de construcción ofrece casas con cinco distintos tipos de ambientes, tres tipos de techos y dos tipos de pisos. ¿De cuántas maneras puede elegir un comprador una casa? 3) El presidente, vicepresidente, secretario y tesorero de una determinada asociación, se elegirán de entre 10 candidatos. Determinar el número de maneras distintas que esos puestos pueden ocuparse. 4) Un profesor recomienda doce textos en la bibliografía de su materia. Siete de los libros son de autores nacionales y el resto de autores extranjeros: Si el profesor indica a los alumnos la lectura de 3 libros: a) ¿De cuántas formas posibles pueden seleccionar 3 libros de autores nacionales o 3 de autores extranjeros; b) ¿de cuántas formas pueden seleccionar 2 libros de autores nacionales y 1 de autor extranjero. 5) Una compañía tiene dos puestos disponibles y los asignará eligiendo al azar 2 personas de una lista de 2 mujeres y 2 hombres, todos ellos con una larga trayectoria dentro de la compañía. a) ¿Cuál es la probabilidad de que al menos una mujer sea seleccionada? b) Cuál es la probabilidad de que ninguna de las mujeres sea seleccionada?

194

7.- Teorema de Bayes La regla de Thomas Bayes (1702-1761) es una técnica para calcular probabilidades condicionales. La importancia de Bayes radica en el uso de probabilidades subjetivas para tomar decisiones en condiciones de incertidumbre. Su interés se centró en el desarrollo de un método para encontrar la probabilidad de una causa específica cuando se observa un efecto particular. El evento B ha ocurrido, cuál es la probabilidad de que la causa sea A1 o A2. Sea la siguiente ecuación: P (A1) . P(B/A1) = P (B) P (A1/B)

P ( A 1 / B)

P (A1) ˜ P (B / A1) P (B)

(11)

Si hay n eventos mutuamente excluyentes A1 A2,...An que pueden causar el evento B (efecto), entonces B puede ser determinado por una de las causas, la probabilidad de que el evento B ocurra es: P(B)= P [(A1 n B) U P (A2 n B) U....U + P (An n Bn)] Como los eventos son mutuamente excluyentes, entonces (Ai n B) y (Aj n B) son también mutuamente excluyentes. Por regla especial de la adición. P(B)= P (A1 n B) + P (A2 n B) +...+ P (An n B) Por regla general de la multiplicación: P(B)= P (A1) P (B/A1) + P (A2) P (B\A2) +...+ P (An) P (B/An) Sustituyendo en (11) P (A1) . P(B/A1) (12)

P(A1/B) = P(A1).P(B/A1)+P(A2)P(B/A2) +...+ P(An).P(B/An

195

P ( A 1 / B)

P ( A 1 n B) P (B)

(13) igual a la fórmula (7)

En resumen: Conociendo P(B/A1) puede calcularse P(A1/B). Ejemplo: Los productos de un negocio son comprados a 3 proveedores X, Y, Z. El 50% de los artículos se compran en X, el 30% a Y y 20% a Z. Se sabe que X se retrasa en los pedidos el 3% de las veces, Y, el 5% de las veces, y Z el 2%. Se recibe un pedido retrasado, cuál es la probabilidad de que sea del proveedor Y? R = retraso P (R/X) = 0,03 P(R/Y) = 0,05

P (R/Z)= 0,02

P (Y) . P (R/Y)

P (RnY)

P(Y/R)=

= P (X). P(R/X) + P(Y) P(R/Y) + P(Z) P(R/Z)

P (R)

0,50 (0,05)

0,025

=

= 0,30 (0,03) + 0,50 (0,05) + 0,20 (0,02)

P(Y/R) =

0,038

0,658

Con el uso de las tablas de probabilidades conjuntas se simplifica el cálculo de probabilidades condicionales para el teorema de Bayes. Se constituye la tabla para el ejemplo anterior: R = retraso

R’= sin retraso

Proveedor X Y Z Total

R 0,009 0,025 0,004 0,038

R’ 0,291 0,475 0,196 0,962

196

Total 0,30 0,50 0,20 1,00

P(Y n R) P(Y/R) =

0,025 =

P (R)

= 0,658 0,38

El teorema de Bayes es, en un sentido, lo que se espera que haga el médico al diagnosticar un paciente. El médico conoce los síntomas de cada enfermedad P(B/Ai) y la frecuencia relativa de cada enfermedad P (Ai). Lo que el médico observa en el paciente es un síntoma y debe determinar (diagnosticar) la probabilidad de que ese paciente tenga una enfermedad particular, dado ese síntoma P(Ai/B) (5).

5. Mills, Richard, Estadística para Economía y Administración. Ed. Mc Graw-Hill.

197

Actividad Nº 29 1) Una vendedora a domicilio sabe por experiencia que de todas las visitas realizadas el 15% dieron como resultado grandes ventas (G), el 30% pequeñas ventas (S) y el 55% no fueron ventas (N). De aquellos que hicieron grandes compras, el 75% viven en zona céntrica (C); de los que realizaron pequeñas compras, el 50% vive en zona céntrica y el 30% que no realizó compras vive en esa zona. Si la siguientes visita se realiza en la zona céntrica, ¿Cuál es la probabilidad de una gran venta? ¿Una venta pequeña?, ¿Ninguna venta? 2) Hay 3 cajas iguales (I, II, III) que contienen alhajas de oro. La caja I contiene un anillo, la II un reloj y dos pulseras y la III un anillo, dos pulseras y dos relojes. Se selecciona al azar una caja y extrae una alhaja. Si la alhaja es un reloj, cuál es la probabilidad de que provenga de la caja I? ¿De la caja II? ¿De la caja III?

198

Ejercicios de Repaso 1) Una compañía telefónica está considerada la conveniencia de distribuir los fondos de una campaña promocional tendiente a incrementar las llamadas a larga distancia en una provincia. La siguiente tabla contiene los mercados en los que, en opinión de la empresa, vale la pena centrar las promociones: Segmentos del mercado

Costo de la Campaña

A B C D E

$ $ $ $ $

350.000 550.000 250.000 200.000 250.000

Se cuenta con $800.000 para destinarlos a esas campañas: a) Preparar una lista mutuamente excluyente de los eventos posibles de la decisión referente a los gastos. b) Suponer que la compañía decidió destinar la totalidad de los $800.000. Cambia esto la respuesta de (b)? Fundamentar. 2) De 100 postulantes que se presentaron a una empresa, 40 tenían experiencia anterior (E) y 30 profesionales (F). Sin embargo, 20 de los solicitantes reunían ambos requisitos y ya han sido incluidos en los conteos anteriores. a) Elaborar un diagrama de Venn que describa esta población. b) ¿Cuál es la probabilidad de que un solicitante elegido al azar tenga experiencias previa o sea profesional? c) ¿Cuál es la probabilidad de que un solicitante tenga experiencia previa o sea profesional pero no ambas cosas? d) ¿Cuál es la probabilidad de que un solicitante elegido al azar sea profesional, dado que tiene experiencia anterior?

199

3) Un canillita ofrece 3 diarios: Tribuno, Nación y Clarín. Posee 10 ejemplares del diario Tribuno, 7 del diario Nación y 4 del diario Clarín. Un comprador adquiere 3 ejemplares, ¿Cuál es la probabilidad de que: a) los 3 sean de distintos diarios? b) los 3 sean del mismo diario? 4) Los empleados de una universidad fueron clasificados de acuerdo a su edad y ocupación. Los resultados se dan en el siguiente cuadro:

Edad Ocupación

X

W

Y

Z

21 - 30

31 - 40

41 - 50

51 y más

Administrativo

2

24

16

17

Docentes

1

40

36

28

Personal de Apoyo

16

20

14

2

Considerando que se selecciona un empleado al azar, obtener la probabilidad de que el elegido: a) Sea administrativo o tenga 51 años o más. b) No sea docente. c) Sea docente dado que tiene entre 41 y 50 años. 5) Un hombre de 40 años contrata un seguro diferido a 20 años. Su mujer tiene la misma edad. Se sabe que la probabilidad de que un hombre de 40 años sobreviva 20 años es 0,80 y la probabilidad de que una mujer de 40 años sobreviva 20 años es 0,90. ¿Cuál es la probabilidad de que por lo menos uno esté vivo para que cobre el seguro? 6) Un gerente bancario estudia la relación entre la condición de empleo al momento de un préstamo y el hecho de que si después del préstamo se vuelve o no moroso. Elige al azar 100 cuentas, y obtiene los siguientes resultados: 200

Condición del Préstamo

Condición de empleo Total Con empleo (E)

Sin empleo (E’)

Moroso (M) No moroso (M’)

10 60

8 22

18 82

Total

70

30

100

a) Confeccionar una tabla de probabilidades conjuntas. b) Obtener las siguientes probabilidades indicando el significado de cada una: i) P (M) ii) P (M’ y E’) iii) P (M / E)

iv) P (M’ o E’) v) Son condición de préstamos y condición de empleo independiente.

7) De un grupo de 20 personas, 10 hablan francés (F), 8 hablan inglés (I) de los cuales 3 también hablan francés y 5 no hablan ninguno de estos idiomas. Se selecciona un individuo al azar. a) b) c) d) e)

¿Cuál es la probabilidad de que hable francés? ¿Cuál es la probabilidad de que hable inglés? ¿Cuál es la probabilidad de que no hable ninguno de estos idiomas? ¿Cuál es la probabilidad de que hable francés e inglés? ¿Cuál es la probabilidad de que hable francés sabiendo que habla inglés? f) ¿Cuál es la probabilidad de que hable inglés sabiendo francés? g) ¿Cuál es la probabilidad de que hable francés o inglés o ambas? 8) Sean los siguientes eventos: A1 :la familia tiene auto. A2 :la familia no tiene auto. B1 :el ingreso familiar es menor que $4.000. B2 :el ingreso familiar está entre $4.000 y $8.000. B3 :el ingreso familiar es mayor que $8.000 y en la población bajo estudio se tiene:

201

P (A1) = 0,70

P (B2) = 0,45

P (A1 / B2) = 0,85

P (A1 / B3) = 0,90

Hallar:

P (B3) = 0,08

a) P (B3 y A1)

b) P (A1 o B3)

c) P (B2 / A1)

d) P (A1 /B2)

9) Para contribuir a la selección de empleados idóneos para el desempeño de un puesto determinado, el departamento de personal toma una prueba de aptitud a todos los solicitantes. A fin de determinar la efectividad de la prueba, se contrastó con una muestra de solicitantes que reprobaron y se los puso a prueba durante un lapso de tiempo corto. Se encontró que del 30% que pasaron la prueba sólo el 80% fueron satisfactorios y de aquellos que no pasaron la prueba, el 10% fueron satisfactorios. a) Determinar la probabilidad de que un solicitante sea satisfactorio para este puesto. b) Determinar la probabilidad de que un solicitante sea satisfactorio habiendo sido reprobado. 10) Indicar si los siguientes enunciados son correctos o incorrectos (C o I). a) ( ) El resultado de un experimento se llama actividad. b) ( ) Si A y B son eventos mutuamente excluyentes, entonces P (A B) ) = c) ( ) La probabilidad clásica supone que todos los resultados posibles de un experimento tienen igual probabilidad de presentarse. d) ( ) Si A y B son estadísticamente dependientes, entonces P (A y B) = P (A) . P (B). e) El teorema de Bayes es la fórmula de la probabilidad condicional en condiciones de dependencia estadística.

202

Respuestas a los ejercicios de la Unidad V Puntos 1 y 2 1) a) 16 SSSS, SSSN, SSNS, SNSS, NSSS, SSNN, SNNS, SNSN b) (U) = NSNS, NNSS, NSSN, NNNS, NNSN, NSNN, SNNN, NNNN

2)a) 6

b) 8

3)a) Simple;

c) 5 y 8 d) 4 - 6 - 7 y 8 b) Compuesto;

e) 1

c) Compuesto;

d) Compuesto.

Punto 3 1) a) Subjetiva; b) Clásica; c) Frecuencia relativa; d) Frecuencia relativa; e) Clásica.

Puntos 4 y 5.1 1) C 0,28

V 0,20

G

a) P (C o V o G) = 0,83

0,35

b) P (otra cosa distinta)= =0,17 o bien 1-0,83= 0,17

0,17 2)a) P (D) = 23/30 b) P (Y o Z) = 5/8 c) P (X o D) = 43/80 (eventos no excluyentes) d) P (Z o D’) = 13/16 (eventos no excluyentes) 3) a) P (2 o más) = 0,85

b) P (3 o menos) = 0,33

203

Punto 5.2 1) a) P (A1 n A2) = 22/145 = 0,152 b) P (B1 n R2) = 8/87 = 0,092 c) P (A1 n B2) u P (R1 n R2) u P (A1 n A2) = 0,32 2)a) 0,16 ; 3)a)

b) 0,09 ;

c) 0,34

P (Alfa y Beta) = 0,06 0,06

b)

P (Beta/Alfa) =

= 0,20 0,30

c)

¿P (Beta)

=

P (Beta/Alfa)?

P (Beta) = 0,20 P (Beta/Alfa) = 0,20 son independientes P (R n A) 4)P (R/A) =

0,48 =

P (A) 5)I)

= 0,86 0,56

a) P (C) = 0,30

b) P (J y C) = 0,05

c) P (O) = 0,25

d) P (F/R) = 0,36

e) P (J o R) = 0,75

f) P (R o N) = 0,425

II) O son independientes

Punto 6 1) kn = (2)10 = 1024 2) (5) (3) (2) = 30

204

3) 4)

V4 = 5040

10

a) 7C3 + 5C3 = 45 ;

b) 7C2 . 5C1 = 26.

C  C

5)

C

6

a)

2 1

2 2

C

4 2

2 6

1 3

4 2

C b)

2 2

C

1 6

4 2

Punto 7 1) C

C’

Total

G

0,1125

0,0375

0,15

S

0,15

0,15

0,30

N

0,165

0,385

0,55

Total

0,4275

0,5725

1,00

P (G/C) = 0,26 2) a) P (I/R) = 0

P (S/C) = 0,35

P (N/C) = 0,39

b) P (II/R) = 0,45 c) P (III/R) = 0,55

205

Ejercicios de Repaso 1) a) Hay 17 subconjuntos que pueden abarcarse con el presupuesto A BCD E A,C - A,D - A,E - B,C - B,D - B,E - C,DC,E - D,E - A,C,D - A,D,E - C,D,Eb) Los únicos subconjuntos donde se gasta todo el presupuesto son B,C - A,C,D - B,E - A,C,E. 2) a) E 20

F 20

b) P (E o F) = 0,50 10

50

c) P (E o F) = 0,30 d) P (F \ E) = 0,50

3) a) 280/1330 = 0,21

b) 159/1330 = 0,12.

4) a) P (A o Z) = 0,41; b) P (A o S) = 0,51; c)P (D/Y) = 0,24 5) 0,98 6) a) M M’ Total

E 0,10 0,60 0,70

E’ 0,08 0,22 0.30

Total 0,18 0,82 1,00

b) i) Prob. de moroso = 0,18 ii) Prob. de no moroso y sin empleo = 0,22 iii) Prob. de moroso dado que tiene empleo = 0,14 iv)Prob. de no moroso o sin empleo = 0,90 v) No son independientes.

206

7)

I 5

F 3

7 5

a)P b)P c) P d)P e)P f) P g)P

(F) = 0,5 (I) = 0,4 (I’ n F’) = 0,25 (F n I) = 0,15 (F / I) = 0,375 (I / F) = 0,30 (F o I) = 0,75

8) B1

B2

B3

Total

A1

0,2455

0,3825

0,072

0,70

A2

0,2245

Total

0,47

a) 0,072 b) 0,708

0,0675

0,008

0,30 c) 0,546

0,45

0,08

1,00 d) 0,85

9)a) Satisf. (S) 0,80

0,24

Aprobaron (A) 0,30

0,06 No satisf. (S’) 0,20 Satisf. (S) 0,10

0,07

Reprobaron (R) 0,70

0,63 No Satisf. (S’) 0,90

b)P (S) = 0,31 10)

a)

I

1,00

c) P (S / R) = 0,10 b)

C

c)

C

d)

207

I

e)

C

208

UNIDAD VI DISTRIBUCIÓN DE PROBABILIDADES 1.- Distribución probabilística 1.1.- Concepto de Función (6) Se define una función como una asociación especial entre un elemento (x) de un conjunto y un elemento (y) de otro conjunto, donde cada elemento x se relaciona con uno y sólo uno de los elementos y. x e y consideran un par ordenado (x,y). Por ejemplo, un par ordenado (5,3) que se muestra en el siguiente gráfico. El primer elemento del par se representa en el eje horizontal y el otro en el eje vertical. y

5 4 3 2 1

(5.3)

1 2 3 4 5

x

Cada par ordenado está representado por un punto en el plano. Los dos conjuntos de elementos representan a todos los posibles valores que x e y pueden tomar; cualquier regla que defina una relación entre ellos será una ecuación. Considérese y = x + 2; y es una función de x. Al asignar un valor a x le corresponde uno y solo un valor de y; por ej.: x=6; y=8. Se utiliza f para designar función y la notación funcional es f(x) (valor de f en x). La ecuación x+2 puede expresarse como f(x) = x+2 o sea y = f(x).

1.2.- Variable aleatoria Las letras x e y se consideran “variables”. El valor de variable y se obtiene cuando se sustituye el valor de la variable x en la función. Entonces x es la variable independiente e "y" la variable dependiente. 6. Chao, Lincoln, op. cit. 209

La mayoría de las funciones en estadística son funciones probabilísticas. A cada evento aleatorio se le asigna un número y dicho número es “el valor de la variable aleatoria”. Si los valores que toma un símbolo tal como x están asociados con los eventos aleatorios de un experimento, y depender de ocurrencias aleatorias, a ese símbolo se le denomina“variable aleatoria”. Por ejemplo, sea X el número de caras al arrojar 2 monedas: Espacio muestral

Valor de la variable aleatoria (X)

SS CS SC CC

0 1 1 2

(ninguna cara) (una cara) (una cara) (dos caras)

1.3.- Función probabilística Una función probabilística es una regla que asigna una fracción probabilística a cada uno de los valores de la variable aleatoria. La función probabilística para el número de caras al lanzar 3 monedas es la siguiente: Espacio muestral

X

P (X) probabilidad

SS

0

1/4

1

2/4

2

1/4

CS SC CC

1,0

210

P(x) 2/4 1/4

0

1

2

x

1.4.- Distribución probabilística Las funciones probabilísticas también se denominan “distribuciones probabilísticas”, ya que la probabilidad total (1 o 100%) se distribuye entre todos los posibles valores de la variable aleatoria. Una distribución probabilística es una distribución de probabilidades donde cada fracción probabilística está asociada con uno de los posibles valores diferentes de la variable aleatoria. De acuerdo a la naturaleza de la variable aleatoria, las distribuciones probabilísticas pueden ser discretas o continuas (ver módulo 1). La distribución probabilística es una distribución de frecuencias relativas a largo plazo. La distribución probabilística es una distribución teórica mientras que la distribución de frecuencias relativas es una distribución empírica.

211

Actividad Nº 30 1) Cuatro tarjetas marcadas con los números 1 - 2 - 3 y 4 se colocan en una caja y se mezclan. Sea X la variable aleatoria que indica el número de la tarjeta que se extrae con reemplazo. Obtener la distribución probabilística de X. 2) Un vendedor ofrece dos modelos de video grabadoras R y S. La preferencia de ambos modelos es la misma: el 50% de los posibles compradores prefieren R y el otro 50% prefieren S. Hay en existencia 3 videos de cada modelo y supóngase que en un sólo día se venden 3 videos: a) ¿Cuál es la probabilidad de que en un cierto día se vendan 3 videos del mismo modelo? b) Definir la variable aleatoria de este experimento. c) Definir los eventos simples y sus valores correspondientes de la variable aleatoria. d) ¿Cuál es la distribución probabilística de X?

212

2.- Valor esperado La media a largo plazo de una variable aleatoria x se denomina valor esperado y se simboliza E(X). Para una variable aleatoria discreta el valor esperado es igual a la suma de los distintos valores multiplicados por sus probabilidades correspondientes: n E (X) = ¦ Xi P (Xi) i=1 ¦ xi P (xi)

(14)

= x1 P(x2) + x2 P(x2) + ... + Xn P(xn)

El valor esperado llamado también esperanza matemática de una variable aleatoria es un promedio ponderado, donde las probabilidades correspondientes son utilizadas como ponderación. Ejemplo: En el ejemplo del lanzamiento de las 2 monedas, el valor esperado de X es:

E(X)

0

1 2 1 1  2 4 4 4

1

El valor esperado 1 es un promedio a largo plazo, esto significa que a medida que el número de tiradas se acerque al infinito, el promedio de las tiradas estarán cercano a 1. Otro ejemplo: un inversor tiene un millón de pesos para una inversión. X indica la cantidad de dinero con la que terminará. X (millones)

P (X)

1 2 3 4 5

0,2 0,3 0,2 0,2 0,1 1,0

213

¿Cuál es la ganancia esperada de este inversor? E(X) = ¦ xi P (xi) E(X) = 1 (0,2) + 2 (0,3) + 3 (0,2) + 4 (0,2) + 5 (0,1) E(X) = 2,7 millones. Ganancia esperada = 2,7 - 1= 1,7 millones

3.- Media y varianza de la población 3.1.- Media de la población Ya se estudió en el módulo 3 que la media de una población ( m ) se obtiene de la siguiente manera:

P=

¦ xi (15) N

Esta fórmula se empleará cuando la población sea finita. Si la población es infinita, la fórmula anterior no puede utilizarse para el cálculo de la media poblacional. En este caso la manera de trabajar las poblaciones infinitas es conociendo los valores probabilísticos de cada valor de la misma, por lo tanto estas poblaciones se manejan como distribuciones probabilísticas. La media de una población infinita se obtiene calculando la media de la distribución probabilística. En resumen: Cualquier distribución probabilística, continua o discreta, se denomina distribución de la población. Ejemplo: Se marcan 4 números (1 - 2 - 3 y 4) en un conjunto de tarjetas. El 30% de las tarjetas están marcadas con 1; el 20% con 2; el 10% con 3 y el 40% con 4. Las tarjetas se mezclan en una bolsa, se saca una y se anota su número. Luego se la repone, antes de sacar la siguiente y así sucesivamente. ¿Cuál es la media de x? (Obsérvese que la población es infinita debido a que hay reposición de las tarjetas). x: 1 P (x): 0,30

2 3 4 0,20 0,10 0,40

214

Distribución probabilística

La media de X es el valor esperado E (X) =

E(X) = 1 (0,30) + 2 (0,20) + 3 (0,10) + 4 (0,40) E(X) = 2,6

Se calcula de esta manera debido a que cada número tiene distinta probabilidad de salir. En caso de que cada número tuviera la misma probabilidad de salir (1/ 4) la media sería:

1 2  3  4 4

10 4

2,5

3.2.- Varianza de la población Si la población es finita, la varianza se calcula de la siguiente manera:

V2

¦ ( XI  P )2

(16)

N

¦ ( XI  P ) 2

V

Y el desvío típico

N

(17)

Para una población infinita, es necesario utilizar la distribución probabilística para obtener la varianza. La notación “promedio de” es reemplazado por el signo de “valor esperado” para expresar la varianza de la población, porque el valor esperado es el promedio a largo plazo de la variable. Por lo tanto:

s

2

=

(X - P )2 = Entonces E (x - P )2

E (x - P )2 X2 - 2 P X + P

2

=

E (X2 - 2 P X + P 2) =

=

E (X2) - E (2 P X) + E (P 2) 215

Como 2 P y P son constantes, el valor esperado del producto de una constante por una variable es igual a la constante multiplicada por el valor esperado de la variable o sea: E (2 P X) = 2 P E(X). Además E (P2) = P2. Por lo tanto: E (X -P)2 = E (X2) - 2 P E (X) + P =

E (X2) - 2 P P + P

=

E (X2) - 2 P 2 + P

En consecuencia

2

2

2

V 2 = E (X2) - P2 = ¦ x2 P (X) - P2

Ejemplo: Obtener la varianza de x correspondiente al problema de las tarjetas: x 1 2 3 4

x2 1 4 9 16

P(x) 0,30 0,20 0,10 0,40

x2 P (x) 0,30 0,80 0,90 6,40 8,40

Recordar que P = E (X) = 2,6 entonces: V 2 = X2 P (x) - P 2 V 2 = 8,40 - (2,6)2 V 2 = 1,64 y el desvío típico es

V =

1,65

216

1,28

Actividad Nº 31 1) Una empresa está evaluando dos proyectos de inversión cuyos valores actuales netos y tasas de retornos son iguales. No obstante, se sabe que un proyecto es más conveniente que otro desde el punto de vista del riesgo que está relacionado con la dispersión relativa (a mayor dispersión, mayor riesgo). Las siguientes cantidades, expresadas en moneda constante, corresponden a los flujos de fondos anuales de los dos proyectos con sus respectivas probabilidades de ocurrencia. Decidir qué proyecto es más conveniente. Proyecto 1

Proyecto 2

Flujos

Prob.

Flujos

Prob.

$ $ $ $ $

0,05 0,15 0,25 0,35 0,20

$ $ $ $ $

0,10 0,15 0,18 0,30 0,27

1.200 2.800 1.000 3.000 2.000

1.700 1.200 3.100 1.500 2.500

2) Se ha determinado que las ventas de una revista en quioscos tiene la siguiente distribución probabilística: Número de revistas (x) 100

- 150 - 200 - 250 - 300 - 350

P (x) 0,05 - 0,10 - 0,25 - 0,30 - 0,20 - 0,10 Calcular el valor esperado y las varianza de las ventas de la revista.

217

4.- Distribuciones de probabilidades discretas 4.1- Distribución binominal La distribución binominal es una distribución discreta de probabilidad que es útil en la aplicación para la toma de decisiones. El proceso de interés describe datos resultantes de un experimento denominado proceso de Bernoulli. El proceso de Bernoulli es un proceso de muestreo en las siguientes características: a) Hay solamente dos posibles resultados que son mutuamente excluyentes en cada ensayo u observación: éxito y fracaso (ocurrencia o no). b) Los ensayos son estadísticamente independientes. c) La probabilidad de éxito (p), permanece constante de un ensayo a otro, esto significa que el proceso es estacionaria. Para determinar la probabilidad de un evento se requiere: 1) el número de éxitos u ocurrencias (x), 2) el número de ensayos u observaciones (n), 3) la probabilidad de éxito en cada ensayo (p) La fórmula que se aplica es: P ( x ÷ n÷ p) =

Cx px qn-x

n

(18)

q = 1-p La obtención de la fórmula (18) se puede demostrar con el siguiente ejemplo del número de caras (x) en el lanzamiento de 3 monedas:

218

Re sultados SSS

x

Distribución probabilística P( x )

0

1p

3

1 8

1

3

2

SSC SCS

1 12 3 2 2

3 p 1 p

1

3 8

CSS SCC CCS

2

2

3 p

2

3

1p

2 1 1 3

2 2

3 8

CSC CCC

p

3

1

2

Cara

18 1 Sello

p = (éxito)= 1/2

(1-p) o q (fracaso) = 1/2

Para X = 0 hay solamente un posible resultado P (X = 0)

= =

P (SSS) (1-p) (1-p) (1-p) = (1-p)3 = 1/8

Para X = 1 hay 3 posibles resultados P (SSC) = (1-p) (1-p) . p = (1-p)2 . p P (SCS) = (1-p) (p) (1-p) = (1-p)2 . p P (CSS) = p (1-p) (1-p) = (1-p)2 . p Como hay 3 posibles resultados P (X = 1) = 3 (p) (1-p)2 = 3/8 y lo mismo para P (X = 2) y P (x = 3). 219

El total de posibles resultados para cada valor de x para una muestra de 3 elementos no es otra cosa que una combinación de x elementos entre 3 elementos. Entonces:

X

Combinaciones

0

3

C0 = 1

1

3

2

3

3

3

C1 = 3 C2 = 3 C3 = 1

Por lo tanto si tenemos: P (x=2 ÷ n=3 ÷ p=1/2) =

C2 (1/2)2 (1/2) = 3/8

3

P (x ÷ n÷ p) =

n

Cx px qn-x

La distribución binomial de este ejemplo se puede graficar de la siguiente manera: P (X)

3 8 2 8 1 8 0

1

2

3

x

Ejemplo: La selección argentina de fútbol jugará 10 partidos durante una gira. Se sabe que en la región donde se realizarán los partidos el 20% de los días son lluviosos. ¿Cuál es la probabilidad de que 3 partidos se jueguen bajo la lluvia?

220

x=3

n = 10 p = 0,20

P (x =3 ô

n =10

ô

p

=

q = 0,80

0

, 2

0

)

=

C3 (0,20)3 (0,80)7

10

10! (0,20)3 (0,80)7 = 0,20133

P (x = 3) = 3! 7!

Uso de las tablas El cálculo de las probabilidades con la fórmula de la binomial resulta tediosa sobre todo cuando n es grande. Esto se simplifica utilizando las tablas de la distribución binomial (Tablas 1 y 2 del Anexo). La tabla 1 corresponde a las distribuciones de probabilidades individuales y la 2 a la distribución de probabilidades acumuladas. Para cada tamaño de la muestra se consignan los valores de probabilidades para cada número de éxitos (x) que se ubican en la columna y las probabilidades de éxito (p) que se ubican en la fila. El valor de probabilidad está en la intersección de x y p. Sean los siguientes ejercicios utilizando el mismo ejemplo: a) ¿Cuál es la probabilidad de que 5 partidos se jueguen en la lluvia? P (x = 5 µn =10µ p = 0,20) =

0,02642

según tabla 1

b) Calcular la probabilidad de que no más de dos partidos se jueguen en la lluvia, o sea: P (x 30 y n p < 5.

226

Ejemplo: un informe indica que en el 10% de las empresas industriales se producen graves accidentes de trabajo. Si se toma una muestra de 30 empresas, ¿cuál es la probabilidad de que en 5 de ellas hayan ocurrido graves accidentes de trabajo? -Utilizando la binomial P (x = 5 µn = 30µp = 0,10) =

0,10230

-Utilizando Poisson O = np O = 30 (0,10) = 3 P (x = 5 µ O = 3) = 0,1008 La diferencia entre los dos valores es de 0,0015 por lo que la aproximación es buena. Así como O define la media de la distribución de Poisson, la desviación típica de esta distribución es

V

O

227

Actividad Nº 33 1) Una tienda recibe 4,2 reclamos de clientes por semana. Determinar la probabilidad de que en una semana elegida al azar:

a) Ningún cliente haga un reclamo. b) No menos de 5 clientes hagan reclamos. c) No más de 1 cliente haga un reclamo. 2) El 2% de operarios de una fábrica padecen de problemas en la vista. En 100 operarios elegidos al azar, ¿cuál es la probabilidad de que a lo sumo 5 tengan problemas en la vista?

228

4.3.- Distribución hipergeométrica Cuando el muestreo es sin reemplazo para cada uno de los elementos tomados de una población, no es aplicable el proceso de Bernoulli, ya que hay un cambio sistemático en la probabilidad de éxito mientras se extraen elementos de la población. En este caso, la distribución discreta de probabilidad apropiada es la distribución hipergeométrica. Para la determinación de las probabilidades hipergeométricas se requiere conocer: X: número designado de éxitos N: número de elementos de la población T: número total de éxitos en la población n: número de elementos de la muestra Luego aplicar la siguiente fórmula: N-T

T

Cn - x P (x) =

Cx (20)

N

Cn Ejemplo: Una biblioteca posee 10 textos de Estadística, de los cuales 6 son de autores extranjeros. Si se eligen al azar 5 textos, ¿cuál es la probabilidad de que 2 de ellos sean de autores extranjeros? X=2 N = 10

T= 6 n=5 10 - 6

6

4

6

C5 - 2

C2

C3

C2

P (x = 2) =

10

=

10

C5

C5

(4) (15) =

= 0,24 252 229

4!

6! 3! 1! 2! 4! = 10! 5! 5!

Debe observarse que la distribución hipergeométrica es una aplicación del análisis combinatorio desarrollado en el punto 6.4. Se resolverá el ejercicio (a) que se utilizó como ejemplo en esa oportunidad utilizando la fórmula (20). Tarjetas rojas

Tarjetas verdes

X=4 N = 15 T=6 n=4

X=4 N = 15 T=9 n=4 15 - 6

C4 - 4 P (4 rojas o 4 verdes) =

6

15 -9

9

C4

C4 - 4

C4

+

15

15

C4

=

C4

9

6

C0

C4

6

+

15

C4 15 = 1365

=

141 =

1365

C4 15

C4

126 +

9

C0

1365

0,103

230

Actividad Nº 34 1) Un producto industrial se embarca en lotes de 20 unidades. Para reducir el número de unidades defectuosas enviados a los clientes, se implementó un programa de inspección que consiste en tomar una muestra de 5 unidades de cada lote y rechazar el lote si se observa más de un artículo defectuoso. Si un lote contiene 4 artículos defectuosos, ¿cuál es la probabilidad de que sea aceptado?

2) En el departamento de ventas de una compañía hay 15 empleados de los cuales 10 tienen legajo incompleto. Si se controla una muestra de 5 legajos, determinar la probabilidad de que 3 estén incompletos.

231

5.- Distribución de probabilidades continuas 5.1. Distribución Normal 5.1.1. Naturaleza e Importancia La variable aleatoria normal es de naturaleza continua ya que su espacio muestral consiste en un número infinito de valores reales y la variable puede asumir cualquier valor de una gama de ellos. La distribución normal es la más conocida y la más usada de las distribuciones teóricas. Muchas variables aleatorias parecen seguir un patrón de distribución que es semejante a la distribución normal, como ser peso, estatura y otras relacionadas con la producción de procesos físicos (dimensiones y rendimientos). Si bien no todas las poblaciones se distribuyen normalmente, muchas distribuciones pueden aproximarse a la normal a medida que aumenta el tamaño de la muestra.

5.1.2.- Características

f

P

f

Figura A Puede describirse a la distribución normal como una curva regular en forma acampanada que está definida por la media y por la desviación estándar de la variable aleatoria x. Es simétrica alrededor de su media; la altura y la dispersión están dadas por la desviación estándar. Matemáticamente puede describirse de la siguiente manera:

232

P(x )

1

V 2S

e

1 2 > x  P \ V @2

(21)

para - f < x < + f x P V S e

= = = = =

valor de la variable aleatoria continua. la media o valor esperado de x desviación estándar de x constante 3,1416... base de los logaritmos naturales 2,718.

De acuerdo a lo expuesto, se resumen a continuación las características de la distribución normal. 1') Como la curva normal presenta una distribución probabilística de una variable continua es imposible referirse a algún punto en particular sobre la curva como probabilidad de x. Para determinar probabilidades, se deben establecer intervalos, como por ejemplo, el intervalo entre a y b indica el área sombreada bajo la curva que proporciona la probabilidad de que la variable aleatoria tome cualquier valor entre a y b. El área total bajo la curva es igual a 1. La ecuación (20) se define como una función probabilística de densidad. El término “densidad” es obtenido de la física, donde la palabra se usa para designar “probabilidad”.

a

b

Figura B

2') La curva normal tiene forma de campana. El componente exponencial da la forma general de la curva. 3') La curva tiene un solo pico (por lo tanto es unimodal) y es simétrica con respecto a su media ( P ). 4') Una curva normal está definida por tres constantes (S y 2) y dos parámetros, la P y V de x. 233

5') Como x es una variable continua, puede asumir cualquier valor real entre - f y + f. La curva normal no toca el eje de las x. Cuando, x aumenta o disminuye apartándose de la media, la curva es asintótica al eje x.

5.1.3.- Regla de la Normal Ya se dijo que el área bajo la curva normal es igual a 1, cualquiera sea el valor de y el valor de . Esto significa que los valores bajo la curva son valores de probabilidades. Si los valores de una población se distribuyen normalmente puede aplicarse la denomina “regla de la normal” que se enuncia a continuación. 1') Aproximadamente el 68% de los valores de una población se encuentran dentro de 1 desviación estándar respecto de la media, o sea

m + 1 s = 68% de los casos. 2') Aproximadamente el 95,5% de los valores de una población se encuentran dentro de 2 desviaciones estándar respecto de la media, o sea:

m + 2 s = 95,5% de los casos 3') Aproximadamente el 99,7% de los valores de una población (casi el 100%) se encuentran dentro de 3 desviaciones estándar respecto de la media, o sea:

m + 3 s = 99,7% de los casos

16 % del área

68 % del área

1V

95,5 % del área

2,25 % del área

16 % del área

V

1V

2,25 % del área

V

Figura D

Figura C

234

99,7 % del área

15 % del área

15 % del área

V

V

Figura 3 Ejemplo: La distribución de los salarios de los vendedores de una tienda es normal con m =$300 y s =$10. El negocio cuenta con 80 vendedores. Aplicando la regla de la normal, se tiene. 1') P + 1 V o 300 + 10 = 68% de los casos 290 < P < 310 Aproximadamente 54 vendedores (0,68.80) tienen un salario entre 190 por 310 pesos. 2') P + 2 V o 300 + 2 (10) = 95,5% de los casos 280 < P < 320 Aproximadamente 76 vendedores (0,955 x 80) tienen un salario entre 280 y 320 pesos. 3') P + 3 V o 300 + 3 (10) = 97,7% de los casos 270 < P < 330 Aproximadamente 78 vendedores (0,977 x 80) tienen un salario entre 270 y 330 pesos.

235

5.1.4.- Importancia de los parámetros Los dos parámetros, media ( P ) y desviación típica ( V ) determinan la forma y ubicación de la curva normal. Si las distribuciones tienen la misma media pero con diferentes desviaciones típicas, las curvas tienen el mismo centro. Cuando V es pequeña la curva tiende a ser leptocúrtica (alto apuntamiento). Si es más grande la curva tiende a ser más achatada (Ver figura F).

V=3 V=5

V=5

P = 10

P = 18

V=5

P = 10

Figura G

Figura F

Cuando las distribuciones tienen la misma desviación típica, pero con medias distintas, las formas de las curvas son iguales, pero la curva se mueve a lo largo del eje de las x.

5.1.5.- Distribución normal estándar Para calcular probabilidades dentro de un intervalo es necesario conocer la distribución probabilística. Como hay tantas variables normales no es práctico desarrollar una distribución probabilística distinta para cada una. Este problema se soluciona debido a que existe una distribución probabilística aplicable a cada una de las posibles variables normales que se denomina “distribución normal estándar” . Esta distribución probabilística de la variable normal estándar Z, se define como:

x-m Z=

(22)

s

236

donde: x P V Z

= = = =

valor de la variable aleatoria de interés. media de la distribución de la variable aleatoria. desviación típica de la distribución. es la diferencia entre el valor observado de X y su media, expresada en términos de su desviación típica. El valor de Z es igual al número de desviaciones típicas de x respecto de la media.

Considérese el ejemplo de la distribución de salarios con P = 300 y V = 10. ¿Cuál es la probabilidad de que un vendedor seleccionado al azar tenga un salario mayor o igual que $320? x = 320. Aplicando la ecuación (2) se transforma x en Z.

320 - 300 Z=

= 2 10

Cambiando la pregunta, ¿Cuál es la probabilidad de que el salario de un vendedor seleccionado aleatoriamente sea mayor o igual que 2 desviaciones típicas a partir de su media?

P (x < P) = 0,50

f

P (x > P) = 0,50

P

f

Figura H Como Z se expresa la desviación del valor observado de X a partir de la media, el control de la distribución de Z no representa ninguna desviación, la media de Z es igual a cero (0). Como Z está expresada en unidades de desviaciones típicas, la desviación típica de Z es igual a 1. La distribución se define completamente por la media 0 y el desvío típico 1. Hay una y solamente una distribución probabilística para la variable estándar Z. 237

En el ejemplo anterior el valor 2 significa 2 desviaciones típicas por encima de la media o bien Z es igual a 2. Si el área bajo la curva es igual 1 (o 100%) entonces P(X > P) = 0,50 y P (X < P) = 0,50.

0,4775

0,4775

280 V

300 0

320 V

Volviendo al ejemplo 320 - 300 Z=

=2 10

Por regla de la normal P + 2 V = 0,955 (95,5%) de los valores. Como la curva normal es simétrica, P + 2 V = 0,4775 P - 2 V = 0,4775 (Ver figura) Se pide la probabilidad de que un vendedor tenga un salario mayor o igual a 320, o la probabilidad de que Z > 2.

P (300 a 320) = 0,4775 Z=2 P (x t) = 0,0225 300

320

238

El valor de probabilidad entre 0 y Z o 0 y 2 es igual a 0,4775. Como P ( > 300) = 0,5, para conocer el valor de probabilidad de x > 320 o Z > 2 se debe restar 0,5 - 0,4775 = 0,0225. Esto significa que existe una probabilidad de 0,0225 (o del 2,25%) que un vendedor gane un salario igual o mayor que 320.

5.1.6.- Cálculo de probabilidades. Uso de la tabla El valor de probabilidad para cualquier valor de x puede obtenerse usando la tabla 4. La tabla proporciona los valores de probabilidad de 0 a Z.

Por ejemplo: - Si Z = 1,50, el valor de probabilidad es 0,4332. - Si Z = 1,56, el valor de probabilidad es 0,4406. Las puntuaciones de Z se listan en la columna del lado izquierdo y en el renglón superior. La columna del lado izquierdo tiene el dígito de las unidades y décimos, mientras que en el renglón superior se halla el dígito de los dos centésimos. Z

0,00

1,5

...

0,4332

0,06 0,4406

Por ejemplo la probabilidad de que Z > 1,50 es 0,0668 (0,5 - 0,4332) y la probabilidad de que Z < -1,56 es 0,0594 (0,5 - 0,4406). 0,4406

0,4332 0,0594

0,0668

f

0

1,5

f

f

239

- 1,56

0

f

Con el siguiente ejercicio se analizarán distintos casos para obtener valores de probabilidades para x con la distribución normal. La factura mensual de teléfono por casa en una zona céntrica se distribuye normalmente con una media de $80 y una desviación típica de $6. Si se selecciona aleatoriamente una factura, determinar la probabilidad de que la misma: a) b) c) d) e)

sea de $70 y menos esté entre $78,50 y $82,50; esté entre $85 y $95; sea de $75 de más; sea igual a $90;

a)P (x < 70) x-P Z= V 70 - 80 Z=

70

80

- 1,67

0

= -1,67

Area entre 0 y -167 = 0,4525 y como el área entre - ¥ y 0 es 0,50.

P (x < 70) = 0,50 - 0,4525 = 0,0475

b) P (78,50 < x < 82,50)

P 78,50 80 -0,25

0

Z

78,50  80 6

 0,25

Z

82,50  80 6

0,42

Area entre 0 y -0,25 = 0,0987

82,50

Area entre 0 y 0,42 = 0,1628

0,42

P (78,50 < x < 82,50) = 0,0987 + 0,1628 = 0,2615 240

c) P (85 < x < 95) 85 - 80 Z=

= 0,83 6 95 - 80

Z= 80

85

95

0

0,83

2,5

= 2,5 6

Area entre 0 y 2,5 (entre 80 y 95) = 0,4938 Area entre 0 y 0,83 (entre 80 y 85) = 0,2967 P (85 < x < 95) = 0,4938 - 0,2967 =

0,1971

d) P (x > 75) 75 - 80 Z=

= -0,83 6

f

f

P 75

80

-0,83

0

Area entre 0 y -0,83 = 0,2967 Area entre 0 y + = 0,50

H P (x > 75) = 0,2967 + 0,50 = 0,7967

e) P (x = 90) Se estableció que como se trabaja con una distribución probabilística continua es imposible determinar la probabilidad de un valor en particular, sino que deben establecerse intervalos. En el caso de P(X = 90) se deberá buscar P (89,5 < X < 90,5). Es el mismo caso de (c).

241

90,5 - 80 Z=

= 1,75 6 89,5 - 80

80

89,5

Z=

90,5

= 1,58 6

Area entre 0 y 1,75 = 0,4599 Area entre 0 y 1,58 = 0,4429 P (X = 90) = 0,4599 - 0,4429 = 0,017

5.1.7.- Aproximaciones de la Normal a otras distribuciones Una de las importancias que la distribución normal es que puede aproximarse a otras distribuciones. Se estudiarán a continuación las aproximaciones de una distribución continua como la normal a distribuciones discretas como la binomial y Poisson.

I) Aproximación normal a la binomial Cuando el número de observaciones (n) es grande, puede utilizarse la distribución probabilística normal a las probabilidades binomial. Una regla conveniente es la que indica que las aproximaciones son aceptables cuando n>30 y np>5. Al usar la normal como base de aproximación a la binomial. P = np (número promedio de éxitos u ocurrencias). V=

npq (desviación estándar del número de éxitos).

Como la distribución normal es continua los valores de X deben ajustarse mediante una corrección de continuidad, ya que un evento discreto representa un intervalo continuo desde un límite exacto superior.

242

Ejemplo: En un barrio de la ciudad de Salta el 20% de las casas no poseen gas natural. Si se investigan 30 casas de ese barrio, cuál es la probabilidad de que 50 más no haya gas natural. - Se utilizará primeramente la distribución binomial. P (X>5\n=30\p=0,20) =

0,7448

- Aproximación de la normal n = 30

np = 30 (0,20) = 6

se cumplen los dos criterios de aproximación. P = np = 6

V = npq =

30 (0,20) (0,80)

V = 2,2 Si bien se busca P (X > 5) al utilizar la corrección de continuidad P (X > 4,5). El evento discreto 5 casas representa el intervalo continuo entre 4,5 y 5,5. En general:

Cuando P (X > Xi) y Cuando P (X < Xi)

se resta 0,5

Cuando P (X < Xi) y cuando P (X > Xi)

se suma 0,5

En el ejercicio como P (x > xi) se resta 0,5 (5 - 0,5 = 4,5). 4,5 - 6 Z=

= -0,68 2,2 Area entre 0 y -0,68 = 0,2518 Area entre 0 y + = 0,50

4,5

6

-0,68

0

P (X > 5) = 0,2518 + 0,5 = 0,7518 243

La diferencia entre el valor obtenido por la binomial y el obtenido por la normal es solamente 0,007 por lo que la aproximación es buena.

II) Aproximación normal a la distribución de Poisson Cuando la media de la distribución de Poisson es grande, puede aproximarse la distribución normal a probabilidad de Poisson. Una regla que indica una buena aproximación es considerar > 10. Recordar que P - O y V =

O

Ejemplo: En un banco, en promedio 10 personas utilizan el cajero automático cada hora. Determinar la probabilidad de que no más de 5 personas utilicen el cajero en una hora seleccionada al azar. - Utilizando Poisson (tabla 3) P (x < 5 \ O =10) = P (X=0) + P (X=1) + P (X=2) + P (X=3) + + p (X=4) + P (X = 0,5) = 0 + 0,0005 + 0,0023 + 0,0076 + 0,0189 + + 0,0378 = 0,0671

- Utilizando la Normal m = O = 10 se cumple el criterio de aproximación P(x < 5), al aplicar la corrección de continuidad P (x>5,5), se suma 0,5 debido a que P(X < x1). O = 20

V=

10 = 3,16

5,5  10  1,42 3,16 Area entre 0 y -1,42 = 0,4222 Z

5,5

10

- 1,42

0

P (X < 5,5) = 0,5 - 0,4222 =0,0778

La diferencia entre los valores de probabilidad calculados con ambas distribuciones es muy pequeña, lo que indica una aproximación aceptable.

244

Actividad Nº 35 1) Las exportaciones de productos agrícolas de nuestro país se distribuyen normalmente con un promedio de 8.000 millones de dólares anuales y un desvío típico de 1.000 millones. Hallar: a) P (X > 10.000) b) P (X < 7.000) c) P (X = 6.000) d) P (9.000 < X < 11.000) e) P (6.000 < X < 8.500) f) P (X > 9.000 o X < 8.000) 2) El 20% de los clientes de un negocio son morosos. Si se toma una muestra de 60 clientes, ¿Cuál es la probabilidad de que a lo sumo 5 sean morosos? 3) Un conmutador recibe en promedio 12 llamadas por minuto. Hallar la probabilidad de que lleguen por lo menos 6 llamadas en un minuto.

245

5.2. Distribución exponencial El modelo de probabilidad exponencial tiene su origen en el proceso de Poisson. Una probabilidad de Poisson se relaciona con la probabilidad de ocurrencia de un número específico de éxitos en una unidad especificada finita, donde el número de éxitos es la variable aleatoria. Al invertir los papeles de una variable de Poisson y su unidad especificada finita, se tiene un modelo de probabilidad exponencial. Una variable "exponencial" x es el intervalor de tiempo, o espacio requerido para obtener un número específico de éxitos (7). En su libro, Kazmier establece que si se presentan eventos en el contexto de un proceso Poisson, la longitud de tiempo o el espacio entre eventos sucesivos tiene una "distribución exponencial de probabilidad". Al ser el tiempo y el espacio son continuos, una medición de este tipo es una variable aleatoria continua. Para cualquier variable continua, no se pregunta, por ejemplo, ¿"cuál es la probabilidad de que la primera solicitud de servicio llegue exactamente en un minuto?, sino que se debe determinar un intervalo dentro del cual debe ocurrir el evento; por lo tanto la pregunta sería "¿cuál es la probabilidad de que la primera solicitud de servicio llegue en un minuto?". La distribución exponencial se aplica cuando interesa el tiempo (o espacio) hasta la ocurrencia del primer evento, o el tiempo entre dos eventos sucesivos, o bien el tiempo que transcurre hasta que se presenta el primer evento, después de cualquier punto en el tiempo elegido al azar (8). La probabilidad exponencial de que ocurra el primer evento dentro del intervalo designado de tiempo o espacio es: P (t < t) = 1 - e

-O

(23)

La probabilidad exponencial de que el primer evento no ocurra dentro del intervalo designado de tiempo o espacio es: P (T > t) = e

-O

(24)

representa el número promedio de ocurrencias para el intervalo de interés. 7. Chou, Ya Lun "Análisis Estadístico" Ed. Mc Graw-Hill 8. Kazmier, Leonard "Estadística Aplicada a la Administración y a la Economía" Serie Sahaon "Ed. Mc. Graw-Hill" 246

Ejemplo 1 Una empresa mayorista recibe 8 pedidos de compra por hora es promedio. Determinar la probabilidad de que se reciba el primer pedido dentro de un lapso de quince minutos. Promedio por hora = 8 = Promedio por quince minutos: 2 P (T < 15') = 1 - e

-2

= 1 - 0,13534 = 0,8647 Los valores de e-l se pueden obtener de la tabla V.

Ejemplo 2: Considerando el ejemplo anterior, ¿cuál es la probabilidad de que el primer pedido no llegue durante la primera hora. O = 8 por hora P(T>8) = e-8 = 0,00034 El valor esperado de una distribución exponencial es E(T) = 1/ O y la varianza en V(T) = 1/ O2.

247

ACTIVIDAD INTEGRADORA En promedio, 6 personas utilizan un cajero bancario automático cada hora. Determinar la probabilidad de que: a) Cuando menos pasen 10 minutos entre las llegadas de dos clientes. b) Después de que salga un cliente, no llegue otro cuando menos 20 minutos. c) De que llegue un segundo cliente antes de que pase un minuto después de que el primer cliente comienza su transacción bancaria?

248

Ejercicios de Repaso 1) Una empresa dedicada a la investigación de mercados efectúa una encuesta postal sabiendo que la probabilidad de contestar es de 0,20. Si se enviaron 20 cartas, hallar la probabilidad de: a) 8 respuestas, b) no más de 3 respuestas, c) por lo menos 16 sin respuestas. 2) La DGI ha clausurado en promedio 6,4 negocios por mes. Encontrar la probabilidad de que: a) Ningún negocio sea clausurado durante una semana. b) Entre 3 y 5 negocios sean clausurados durante un mes. 3) La compañía “Click” fábrica encendedores de cigarrillos. Un componente importante de este producto es una pequeña rueda de acero dentada que gira y crea la chispa para el encendido. Esta rueda de acero está fabricada con un acero comprado por la compañía "Click". La característica más importante del acero es su dureza. El departamento de ingeniería industrial ha especificado que los lingotes de acero deben tener una dureza de cuando menos 425 Unidades Brinell (UB). Es también conveniente que el material sea uniforme. Se ha decidido comprar todo este material a un solo proveedor, ya que ello implica ahorro en costos. La lista de posibles proveedores se redujo a dos firmas A y B. a) La dureza media de los lingotes producidos por A es de 510,2 UB, mientras que la dureza media de los lingotes de B es 492,8 Ub. ¿Es la calidad de B inferior a la de A? Explicar la respuesta, aclarando cuál es la interpretación del término “calidad”. b) La dureza de los lingotes producidos por cada proveedor está distribuida normalmente. La desviación típica de la dureza de los lingotes de A es 53,9 UB y la desviación típica de la dureza de los lingotes de B es 31,4 Ub. ¿Qué forma presenta mayor uniformidad? Explicar. c) ¿Cuál es la proporción de lingotes con 425 o más UB producidas por cada proveedor?

249

d) Sobre la base de la información anterior, ¿qué firma seleccionaría Ud? Fundamentar la respuesta. e) ¿Qué otros factores además de la calidad, consideraría al hacer la selección del proveedor? 4) La duración de las pilas fabricadas por la compañía “Luxor” está normalmente distribuida con = 795 minutos y =37 minutos. a) ¿Cuál es la probabilidad de que una pila dura entre 775 y 820 minutos? b) ¿Cuál es la probabilidad de que una pila dure más de 800 minutos? c) ¿Existe una probabilidad de 0,95 de que una pila dure menos de cuántos minutos? d) El 50% de las pilas duran entre —— y ——. Usar límites simétricos alrededor de la media. 5) La media de las puntuaciones de los exámenes de 80 postulantes es de 75 con un desvió típico de 8. La distribución es normal. El departamento de personal determinó que aquellos postulantes que hayan obtenido 60 puntos o más pasarán a una entrevista. ¿Cuántos de ellos serán entrevistados?

250

Respuestas a los ejercicios de la Unidad VI Punto 1 1) X: 1 2 3 4 P(X): 1/4 1/4 1/4 1/4 = 4/4 = 1 2) a) 0,25; b) Número de videos del mismo modelo. c) Eventos simples RRR - RRS - RSR - SRR - SSR - SRS - RSS - SSS Valor de X 1 0 0 0 0 0 0 1 d) X=

0

P(X)= 6/8

1 2/8

Punto 2 y 3 1) CV1= 38,2% - CV2= 33,51% - Conviene el 2. 2) E(X)= 240 2 = 4.150 = 64,4

Punto 4.1. 1) a) P(X=7) = 0,17708; b) P(X=0) = 0,00047; c) P(X 5) =0,40321 d) P(X 8) = 0,21311; e) P(X 3) = 0,00193; f) P(8 X 10) = 0,56962 2) = mp= 5,25

= 1,85

(Aprox. Posson a la Binamial)

Punto 4.2. 1) a) 0,0150;

b) 0,4101;

c) 0,078

2) 0,9834

251

Punto 5 1) a) 0,0228; e) 0,6687 f) 0,6587

b) 0,1587;

c) 0,0005;

2) P(X 5,5)= 0,0179 (Aprox. Normal a la Binomial) 3) P(X 5,5)= 0,9686 (Aprox. Normal a Posson)

252

d) 0,1574;

Ejercicios de Repaso 1) a) 0,02216; b) 0,41145; c) 0,62965 2) a) 0,2019 b) 0,3375 3) a) No, porque ambos cumplen las especificaciones. b) B c) A= 0,9429 B= 0,9846 d) B cumple con todas las condiciones e) precio, condiciones de pago, etc. 4) a) 0,4572; c) 855,9 minutos,

b) 0,4443; d) Entre 770 y 820 minutos.

5) 78 postulantes.

253

254

APÉNDICES

255

256

Apéndice 1 Distribución Probabilisticas Binomiales § n · x n x Las anotaciones en la tabla son valores de ¨¨ ¸¸ p q ©x¹

257

258

259

Apéndice 2 Probabilidades acumuladas para distribuciones binomiales § n · k nk CP (x ) ¦ ¨¨ ¸¸ p q k 0 © k ¹ x

260

261

262

Apéndice 3 Probabilidades Poisson

263

264

265

266

Apéndice 4

267

l

Apéndice 5 Valores de e-O

268

269

Importancia de la muestra

Distribución en el muestreo

Errores muestrales y no muestrales

Diagrama de Contenido - Unidad VII

Teorema del límite central

Distribución muestral de proporciones

Distribución muestral de medias

Distribuciones Muestrales

270

UNIDAD VII DISTRIBUCION EN EL MUESTREO

(1)

1. Introducción Luego de haber estudiado la teoría de las probabilidades como base de la inferencia estadística, se desarrollará la distribución en el muestreo que es un tema fundamental para entender el proceso de inferencia estadística. Se analizarán los puntos básicos para el estudio de la “Estimación” y el “Test de Hipótesis”.

2. Importancia de la muestra En la unidad I (módulo 1) se expusieron algunas características importantes de una muestra. Se hizo referencia a la necesidad de que una muestra debe ser representativa para que pueda ser usada con fines de realizar inferencias acerca de la población. Los métodos para seleccionar muestras son muchos, dependiendo del objetivo del estudio, del tiempo, del dinero y de la naturaleza de los elementos individuales de la población. En este módulo no se desarrollará este tema, sino que el mismo será investigado por el alumno a través de la guía propuesta en las actividades de pág. 17. No obstante, se hará la diferencia entre “muestras probabilísticas” y “muestras no probabilísticas”. Una muestra “probabilística” es aquella en la que los sujetos de la muestra se eligen sobre la base de probabilidades conocidas. En cambio, una muestra “no probabilística” está basada en los puntos de vista subjetivos de una persona que utiliza su conocimiento y su opinión para identificar los elementos de la población que serán incluidos en una muestra, por ello se denomina también “muestreo de juicio”. Las muestras probabilísticas son preferidas porque la selección de los elementos es objetiva y el error muestral puede ser medido en términos 1 Shao, Stephen: "Estadística para Economía y Administración de Empresas", Herrero Hnos. 271

de probabilidad. Si bien una muestra de juicio es fácil de obtenerla y su costo es bajo, no permite medir el error muestral. Recuérdese que los valores que describen características de la muestra se denominan “estadígrafos” y los valores que describen características de una población se denominan “parámetros”. Los símbolos a utilizar son:

Medida

Media Desviación típica Proporción Números de elementos

Muestra (Estadígrafo)

Población (Parámetro) P V p N

x s p n

3. Error muestral La diferencia entre el resultado obtenido de una muestra y el resultado el cual deberíamos haber obtenido de la población se llama “error muestral”. El error muestral es medido por el error estándar del estadígrafo, en términos de probabilidad, bajo la curva normal (ver punto 5). Esta medida indica “la precisión” de la estimación de la población basada en una muestra. Mientras más pequeño sea el error muestral, mayor precisión hay en la estimación. Debe hacerse notar que hay errores que se cometen en las encuestas, en las tabulaciones de datos, en los cálculos, etc. que no son debidos a la muestra por eso se denominan errores “no muestrales”.

4. Distribución en el muestreo Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), pueden extraerse dos o más muestras de la misma población. De cada muestra, puede ser calculado un estadígrafo. Una distribución del estadígrafo obtenida de las muestras se denomina “distribución en el muestreo del estadígrafo”. Por ejemplo, de una población de tamaño

272

3, con los elementos A, B y C, es posible extraer 3 muestras de tamaño 2 (sin reposición). Si se calcula la media de cada muestra, habrá 3 medias muestrales. Estas 3 medidas forman una distribución que se denomina “distribución de medias muestrales” o “distribución muestral de medias”.

5. Error estándar La desviación estándar de una distribución muestral de un estadígrafo, se denomina “error estándar del estadígrafo”. Por ejemplo, la desviación típica de la distribución muestral de medias se denomina “error estándar de la media”. La “desviación estándar” se refiere a los valores originales, mientras que el “error estándar” se refiere a valores calculados. Los estadígrafos son valores calculados a partir de una muestra.

6. Distribución muestral de medias Tómese como ejemplo, esta población finital pequeña compuesta por los jornales de 4 trabajadores de una empresa industrial.

Trabajador

A

B

C

D

Jornal ($)

2

5

6

3

La media es P

¦ x i 16 4 N

$4

( x  P )2 ¦ La desviación típica es V N

$ 1,58

A continuación se obtendrá todas las muestras posibles de tamaño 2 y se calculará la media para cada una (El muestreo es sin reposición).

C

n r

C

4 2

4! 2! 2!

6 combinaciones posibles

273

Muestras

Jornales

A-B A-C A-D B-C B-D C-D

2 2 2 5 5 6

-

Medias muestrales

5 6 3 6 3 3

3,5 4,0 2,5 5,5 4,0 4,5 24,0

El total de las 6 medias muestrales es 24, por lo tanto, la media de las medias muestrales es:

X

24 6

$4

Esta media es igual a la media de la población. Las medias muestrales pueden presentarse en la siguiente distribución:

Medias Muestrales (X)

Número de medias muestrales (f)

2,5 3,5 4,0 4,5 5,5

1 1 2 1 1 6

La media de esta distribución puede calcularse:

X

24 6

$4

El desvío típico de la distribución muestral de medias (Simbolizado por Vx) se puede obtener por la fórmula:

Vx

¦ x2 f

n

 x2

10  1 6

 42

;

274

Vx

0,83

0,91

El desvío típico obtenido es el “error estándar de la media”, que en la práctica se calcula por:

Vx

V n

(1)

Si la población es finita, se agrega el factor de corrección, o sea:

Vx

En el ejemplo

V n

Nn N 1

(2)

V = 1,58 ; N = 4 ; n= 2

Vx

1,58 2

42 4 1

0,91

En resumen: La distribución de las medias obtenidas de todas la muestras posibles, se denomina distribución muestral de medias. La media de esta distribución es igual a la media poblacional y la desviación típica es igual al error estándar de la media. El error estándar disminuye a medida que aumenta el tamaño de la muestra.

7. Distribución muestral de proporciones La distribución en el muestreo de la proporción es un conjunto de proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población. Hay 4 empleados en una empresa, A, B, C y D. Los empleados A y B son profesionales universitarios; C y D son no profesionales. Supóngase los 4 empleados como una población. Desígnese con el valor 1 a un profesional y con 0 a un no profesional.

275

Empleado

X

A

1

B

1

C D

0 0 2

La proporción de los profesionales es

2 4

p

V

0,50 Parámetro y el desvío típico:

p.q

0,50(0,50)

0,50

Se obtendrán todas las muestras posibles (sin reposición) de tamaño 3 y se calculará la proporción de profesionales.

Muestra ABC ABD ACD BCD

Proporción muestral 2/3 = 0,67 2/3 = 0,67 1/3 = 0,33 1/3 = 0,33 2,00

La media de las proporciones muestrales es:

p

2,00 4

0,50

====

igual a la proporción de la población.

El error estándar de la proporción obtenida por la fórmula 22 (Módulo 3) es: Vp = 0,17 El cálculo del error estándar de la proporción se simplifica por:

(3)

Vp

p.q n

o

Vp

p.q N  n  n N 1

(4)

para poblaciones finitas

Vp

276

0,50(0,50) 4  3 3 4 1

0,17

8. Teorema del límite central Como resulta impracticable obtener todas las medias muestrales la distribución normal se utiliza para aproximar las probabilidades de las medias muestrales en un a distribución muestral. La normalidad de la distribución muestral de medias queda establecida en el “teorema del límite central” cuyo enunciado dice: - Si una población es bastante grande y está normalmente distribuida, la distribución de las medias muestrales también será normal. - Si una población no está normalmente distribuida, la distribución muestral de medias se aproximará a una distribución normal si el tamaño es suficientemente grande. La distribución normal de las medias muestrales tiene una media igual a E(X) y el error estándar Vx. Si se desconocen los valores de P y Vx, pueden estimarse a partir de X y S. El erro estándar estimado a partir de S, se obtiene por: S

S n

(5)

Ejemplo: La media de las cuentas a cobrar de 1.500 clientes en una tienda es de $250 y una desviación típica de $45. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria de 100 cuentas con una media de $260 y más?

Z

Z

260  250 45 100

10 4,5

x P Vx

x P V n

(6)

2,22

Area entre 0 y 2,22 = 0,486 0,50 - 0,4868 = 0,0132 P (X ³ $ 260) = 0,0132 250 260 277

Cuando N es grande y el tamaño de la muestra n, es pequeña, el factor de corrección

Nn N 1 se aproxima a 1, por lo tanto puede obviarse y utilizar sólo

Vx

V n

o Vp

p.q n

según corresponda para el cálculo del error estándar.

278

Actividad Nº 36 1) Contestar las siguientes preguntas: a) b) c) d) e) f)

¿Cuáles son las principales características de una muestra? ¿Qué diferencia hay entre un parámetro y un estadígrafo? ¿Qué diferencia hay entre error muestral y erro no muestral? ¿A qué se denomina distribución en el muestreo? ¿Qué mide el error estándar? ¿Cómo se obtiene este error? ¿Por qué es importante el teorema del límite central?

2) Las pólizas vendidas por 5 vendedores de seguros durante un período dado son: Vendedor Pólizas Vendidas

A 2

B 3

C 4

D 5

E 1

I) Considerar los 5 vendedores como una población. a) Obtener la media aritmética y la desviación típica. II) Elegir todas las muestras posibles de tamaño 2 (sin reposición). a) Obtener las medias de todas las muestras posibles. b) Construir un a distribución muestral de medias. c) Obtener la media de la distribución muestral y el error estándar de la media. 3) Con los datos de la población del ejercicio (2), elegir todas las muestras posibles de tamaño 3 (sin reposición) y realizar las mismas actividades consignadas en el punto II. 4) La duración promedio de 2.000 baterías producidas por una compañía es de 38 meses y una desviación típica es de 8 meses. ¿Cuál es la probabilidad de seleccionar una muestra al azar de 50 baterías con una duración de por lo menos 35 meses? 5) De 50.000 familias en una ciudad, el 30% no tiene televisión por cable. Determinar la probabilidad de seleccionar una muestra aleatoria de 500 familias con una proporción de 33% o más.

279

6) Consultar la bibliografía consignada en el programa y desarrollar la siguiente guía de estudio sobre el tema Métodos de Muestreo. a) Efectúe una lectura global sobre el tema de referencia. b) Lea atentamente el tema "Muestras Probabilísticas". b.1. Conteste: a qué se denomina "muestra probabilística". b.2. Cuáles son los 4 tipos de muestras probabilísticas? c) Lea el tema "Muestreo Simple al Azar". c.1. Explique el procedimiento de este tipo de muestreo. c.2. Supóngase que los 70 alumnos de una carrera reciben números de identificación del 01 al 70. Se desea entrevistar a 10 de ellos eligiéndolos aleatoriamente. Utilizando la tabla de números aleatorios, cuáles serán los seleccionados? (Ver Anexo I) c.3. ¿Cuáles son las principales ventajas y desventajas de este tipo de muestreo? d. Lea el tema sobre "Muestreo sistemático" d.1. Explique el procedimiento de este tipo de muestreo. d.2. ¿Cómo seleccionaría la muestra del punto c.2. por este método? d.3. ¿Cuáles son las ventajas y desventajas del muestreo sistemático? e. Lea el tema "Muestreo Estratificado". e.1. Explique en qué consiste este diseño de muestra. e.2. Supóngase que de un total de 1.000 empleados de una gran compañía, se desea obtener una muestra de 100 para una investigación. El número total de empleados se distribuye según su instrucción. Instrucción

Nº de Trabajadores

Primaria Secundaria Superior No Univ. Superior Univ.

50 500 150 300 1.000

a) ¿Cómo seleccionaría la muestra estratificada proporcional? b) ¿Cómo seleccionaría la muestra estratificada no proporcional? c) ¿Cuál de las dos es más apropiada?

280

e.3. Señale ventajas y desventajas de este diseño de muestra. f. Lea el tema "Muestreo por Conglomerados" f.1. ¿En qué consiste este tipo de muestreo? f.2. ¿Qué diferencias hay con el muestreo estratificado? f.3. Determine ventajas y desventajas. g. Lea el tema "Muestras no Probabilísticas". g.1. A qué se denomina "muestras no probabilísticas? g.2. Explique cuál es la diferencia con las muestras probabilísticas? g.3. Señale, en general, ventajas y desventajas.

281

Respuestas a los ejercicios de la Unidad VII 1) Consultar el marco teórico del módulo y de la bibliografía. 2)

I) P = 3

V = 1,41

II) a) 10 muestras b) Media Nº de muestras

1,5 2,0 2,5 3,0 3,5 4,0 4,5 1 1 2 2 2 1 1 = 10

c) Media: 3 pólizas Error estándar de la media = 0,87

3)a) 10 muestras b) Media Nº de muestras

2,0 2,33 2,67 3,0 3,33 3,67 4,0 1 1 2 2 2 1 1 = 10

c) Media: 3 pólizas Error estándar de la media = 0,58

4) P (X ³ 35 meses) = 0,9960

5) P (X ³ 0,33) = 0,0668

282

283

^ Por intervalo

^ Puntual

Tipos de estimación

Estimaciones para muestras grandes: - Estimación de la Media Poblacional - Estimación de la Proporción de la Población - Estimación de la Diferencia de dos medias

Nivel e Intervalo de Confianza

Estimador y Estimación

TEORÍA CLÁSICA DE LA ESTIMACIÓN

Diagrama de Contenido - Unidad VIII

Propiedades de un buen estimador

284

UNIDAD VIII TEORÍA CLÁSICA DE LA ESTIMACIÓN 1. Introducción Por lo general, los parámetros de la población son desconocidos y se hace necesario estimarlos a partir de valores muestrales (estadígrafos). El empresario recurre a las estimaciones por cuanto sus decisiones se basan en una información incompleta y con una gran incertidumbre. La estimación, una de las bases de la inferencia estadística, permitirá la generalización respecto de las características de la población a partir de la información de las muestras.

2. Estimador y Estimación - Un estimador es un estadígrafo con el cual se estima un parámetro poblacional. La media muestral (X), por ejemplo, puede ser un estimador para la media población (m). - Estimación es un valor específico observado de un estadígrafo. Supóngase que se toma una muestra de focos y se prueban para determinar la duración media que es X = 4.000 hs. Si nos servimos de este valor específico para estimar la duración media de todos los focos, el valor 4.000 hs. será una estimación.

3. Tipos de Estimaciones Una estimación de un parámetro puede ser expresada de dos maneras: “por punto” y “por intervalo”. - Una estimación puntual es un número único que se utiliza para estimar el parámetro. Si en el ejemplo anterior se afirma que la duración media de los focos es de 4.000 hs., se está haciendo una estimación puntual. Este tipo de estimación es insuficiente ya que hay un acierto o una equivocación. Si la estimación de 4.000 hs. es equivocada, no se conoce el grado de error y no hay seguridad de la confiabilidad de la estimación. 285

Si el margen es de solamente de 50 hs., 4.000 hs. puede ser una buena estimación, pero si el error es de 500 hs., se rechazará como estimación. Esta estimación debe incluir una estimación del error (2). - “La estimación por intervalos” es una gama o recorrida de valores dentro del cual se puede esperar que esté el parámetro. Si la estimación de la duración de los focos se expresa como entre 3.950 hs. y 4.050 hs., es una estimación por intervalo. Este tipo de estimación indica el error por el grado de su intervalo y por la probabilidad de que el verdadero parámetro se encuentre dentro de él.

4. Propiedades de un buen estimador La calidad de un estadígrafo como estimador se puede evaluar de acuerdo a los siguientes criterios: a) Insesgabilidad. Se dice que un estadígrafo es un estimador insesgado de la población si el valor esperado de su distribución muestral es igual al parámetro poblacional. X es un estimador insesgado de P, ya que E(X) = P p es un estimador insesgado de P, ya que E(p) = P b) Consistente . Debido al error de muestreo, un estimador, generalmente, no es idéntico al parámetro a estimar. Un estimador es consistente si al aumentar el tamaño de la muestra, se logra una seguridad casi absoluta de que el valor del estadígrafo se acerca mucho más al valor del parámetro de la población. c) Eficiencia. La eficiencia hace referencia al tamaño del error estándar del estadígrafo. Un estimador es más eficiente que otro si el primero tiene un error estándar menor. Un estimador con esta propiedad tiene mayor probabilidad de lograr una estimación más cercana al parámetro poblacional. d) Suficiencia. Un estimador es suficiente si utiliza la información de la muestra, de modo tal que ningún otro estimador proporcione más información de esta muestra referente al parámetro de la población. 2. Levin, Richard, "Estadística para Administración". Ed. Prentice-Hall. 286

5. Estimaciones puntuales La media muestral es el mejor estimador de P. Cumple con todas las propiedades mencionadas en el punto anterior. Si la muestra es grande su distribución muestral puede aproximarse a una distribución normal. Al conocer la distribución muestral de X se puede realizar una estimación basada en la muestra. Recordar que la X se obtiene con la fórmula ya conocida:

¦ xi

x

n

En cuanto a la varianza, se utilizó la siguiente fórmula al estudiar las medidas de dispersión (unidad IV).

¦ x  x

2

s

2

n Pero al utilizar S como estimador de V2, la fórmula anterior se vuelve: 2

¦ x  x

2

s

2

n 1

(7)

Al usar n-1, se obtiene un estimador insesgado de s. Si se hubiera trabajado sólo con n, el valor tendría algún sesgo.

Ejemplo: Una compañía desea conocer el número de pólizas vendidas durante por los vendedores. Obtiene los siguientes datos durante una semana con una muestra de 20 vendedores. 1 5

x

111 20

2 6

5,6

2 6

3 7

S2

3 8

3 8

8,26

287

4 9

4 5 5 10 10 10

S

8,26

2,9

Actividad Nº 37 Ejercicios - Puntos 1 al 5 1) Contestar las siguientes preguntas: a) Diferenciar entre “estimador” y “estimación”. b) Explicar la ventaja que tiene una estimación por intervalo sobre el estimación puntual. 2) Indicar si los siguientes enunciados son correctos (C) o incorrectos (I). a) ____Se dice que un estimador es eficiente del parámetro poblacional, con un tamaño creciente de la muestra, se tiene casi la certidumbre de que el valor del estadístico se acerca más al parámetro poblacional. b) ____El intervalo es una gama de valores que se usan para estimar la forma de la distribución de una población. c) ____Cuando se elige un estimador del parámetro poblacional, la propiedad más impor tante para evaluar su calidad es la insesgabilidad. 3) El propietario de una sala de espectáculos está considerando la posibilidad de ampliar su capacidad y necesita conocer el número promedio de personas que asisten a los distintos espectáculos y la variación de dicho número. La asistencia a 9 espectáculos seleccionados, aleatoriamente (en miles) fue: 13,0

8,5

14

20,5 7,6 12,5 20,6 14,2 10,2

Obtener las estimaciones puntuales de la media y la varianza de la población.

288

6. Estimación por intervalo 6.1 Introducción Ya se definió en el punto 3 que la estimación por intervalo indica un grado de error. Si se estima la duración media de los focos fabricados por una compañía, se puede seleccionar una muestra de 300 unidades a través de un control de calidad cuya X = 4.000 hs. Se sabe que la desviación típica de la población es de 1.500 hs. Si se utiliza X para estimar P , se hace necesario un dato sobre la incertidumbre que acompaña a esta estimación, o sea establecer un intervalo donde posiblemente se encuentre la media poblacional desconocida. Por lo expresado, se necesita obtener “el error estándar de la media”. Por el teorema del límite central, la distribución muestral de medias se aproxima a una distribución normal. Recuérdese que la dispersión de la distribución muestral se mide a través del error estándar. Como n = 300 es una muestra bastante grande, se puede aplicar el teorema de referencia. El error estándar de la media es:

Vx

V n

1500 300

86,6 hs.

Ese resultado es el error estándar que acompaña a la estimación. Es decir, la duración media verdadera de todos los focos puede estar en el intervalo entre 3.913,4 y 4.086,6. No obstante, falta determinar la probabilidad de que la verdadera duración de los focos se halle en el intervalo. Por regla de la normal (Unidad VII) hay una probabilidad de 0,683 de que la media de una muestra de tamaño 300 se encuentre dentro de un error estándar positivo y negativo de P . En otras palabras el 68,3% de todas las medias muestrales se encuentra a un error estándar positivo o negativo de m . En el ejemplo de la duración de focos, hay una confianza del 68,3% de que la duración se encuentre en el intervalo 3.913,4 o 4.086,6 (4.000 ± 1 V ). Análogamente: -

3.826,9 a 4.173,2 hs. con el 95,5% de confianza (4.000 ± 2 V).

-

3.740,2 a 4.259,8 hs. con el 99,7% de confianza (4.000 ± 3 V). 289

6.2 Nivel e Intervalo de Confianza - La probabilidad asociada a una estimación por intervalo se denomina nivel de confianza. Por ejemplo 80%; 90%; 95%; 99% y otros. El nivel de confianza se expresa como 1 - D . - El intervalo de confianza es la estimación, es decir el recorrido dentro del cual se espera que se encuentre el parámetro. Como estamos trabajando con una distribución normal estándar, la diferencia entre el valor de x y su media, expresada en términos de su desviación típica está dada por z. El valor de z es igual al número de desviaciones típicas. Por lo tanto, los intervalos de confianza se expresan como:

x + zsx

límite superior de intervalo de confianza

x - zsx

límite inferior de intervalo de confianza

Si se estima la duración media de los focos con 90%(*) el intervalo de confianza es: 4000 + 1,64 (86,6) = 3.858 a 4.142 (*) Para 1 - a = 90%, z = 1,64 (ver la tabla) Una proporción 1 - a del área bajo la curva normal estándar queda entre -z a /2 y z a /2. Si 1 - D = 90%

D = 0,10 y D / 2 = 0,05. D DD =DVx =DVx P =D=D

Interpretación La estimación obtenida anteriormente no significa que haya una probabilidad de 0,90 de que la duración media de todos los focos se encuentre dentro del intervalo establecido, sino que debe interpretarse así: 290

“Si se seleccionan muchas muestras aleatorias de tamaño 300 y se calcula el intervalo de confianza de todas esas muestras, en el 90% de ellas, la media de la población se encuentra dentro de ese intervalo”. Valores de z para los coeficientes de confianza más utilizados: 1-D z

50% 0,6745

68,27%

90%

95%

1,00

1,645

1,96

95,45% 2,00

99%

99,73%

2,58

3,00

6.3 Cálculo de Estimaciones por intervalos para muestras grandes 6.3.1 Estimación de una media poblacional Si se conoce el desvío estándar de la población, el error estándar se calcula como: Vx n

Vx

por lo tanto el intervalo de confianza para estimar m se obtiene de la siguiente manera:

x  z D / 2 Vx  P  x  z D / 2 . Vx

(8)

Si el desvío estándar de la población se desconoce, se utiliza el desvío estándar de la muestra, S para estimar V. De acuerdo a lo estudiado en el punto 5 de la unidad, se estima por: 2

S

¦ (x  x ) n

En este caso, el error estándar de la media se obtiene: Sx

S n

(9)

siendo los límites de confianza x + Sx 291

Ejemplo: El Dpto. de Personal de una empresa está interesada en estimar el número promedio de días que los empleados faltaron por razones particulares. Un análisis de los legajos de 49 trabajadores elegidos al azar dio una media de 12 días. Si el desvío estándar poblacional es de 2,5 días, determinar el intervalo de confianza del 95% para el verdadero promedio. x±z 12 ± 1,96 (2,5 / 49) 12 ± 1,96 (0,36) 11,3 d P d 12,7

Determinación del tamaño de la muestra para la estimación En la distribución normal P ± z Vx = P ± E y E = z E = es el error muestral o sea la diferencia entre x y P En el problema anterior E = 1,96 (0,36) = 0,7 E z.

V n

y

§ z. 2 · n ¨¨ V ¸¸ © E ¹

n

z.V E

(10)

donde: E: error muestral máxima que se acepta. z: se establece mediante el nivel de confianza. V: desvío estándar de la población que si se desconoce se puede estimar por V.

Ejemplo: Supóngase que el Jefe de Personal desea estimar la media de inasistencia utilizado la misma desviación típica y con el mismo nivel de confianza pero acepta como error máximo 0,5. El tamaño de la muestra que deberá elegir es:

292

n

(1,96)2 . (2,5)2 (0,5)

2

96,04 96 trabajadores

6.3.2 Estimación de la proporción de la población Para construir un intervalo de confianza para estimar la proporción poblacional se debe utilizar la distribución binomial. Como los cálculos de probabilidades binomiales son complejos, se puede aproximar por medio de una distribución normal que puede servir para aproximar la distribución muestral. Para aproximarse debe cumplir que:

n t 30 y np t 5, donde P np y V

n.p.q

La proporción de éxitos en la muestra se expresa por p. Como np es igual al número medio de éxitos, se divide np entre n para obtener sólo a proporción p. La media de la distribución muestral de proporciones es: Pp = p Análogamente, se modifica la desviación típica dividiendo n.p.q entre n para convertir número de éxitos en proporción de éxitos. La desviación estándar de la proporción de éxitos se representa por:

Vp

p.q n

error estándar de la proporción

Si se desconoce la proporción de la población:

Sp

p.q n

(11)

Por lo tanto el intervalo de confianza para estimar la proporción de la población p es;

p  z D / 2 . Vp d p d p  z D / 2 Vp Si se desconoce la proporción de la población:

p r z D / 2 Sp

293

(12)

Ejemplo: Otro problema del jefe del personal es estimar la verdadera proporción de legajos de los empleados que están incompletos. Elige una muestra de 50 legajos y encuentra 14 incompletos. Determinar el intervalo de confianza del 99% para p.

p

14 0,28 50

p  z D / 2 . Sp 0,28 (0,72) 50 0,12 d p d 0,44 0,28 r 2,58 .

Determinación del tamaño de la muestra para estimar la proporción de la población

E z Vp z .

p.q n

p.q n

o

E z

donde:

p.q n

n

E2 z2

z2 .p . q E2

(13)

Ejemplo: Supóngase que para la estimación del ejercicio anterior, el jefe desea un error no mayor de 0,10. El tamaño de la muestra será: n

(2,58)2 . (0,28) . (0,72) (0,10)2 n

134 legajos

294

134,2

6.3.3 Estimación de la diferencia entre dos medias Si dos medias muestrales x1 y x2 son independientes, el procedimiento para construir el intervalo de confianza para G (delta), verdadera entre las dos medias poblaciones P1 y P2 es similar a los anteriores.

D  z D / 2 . VD d G d D  z D / 2 . V 2

(13)

Siendo D = x1 - x2 VD

error estándar de la diferencia de medias

V12 V 22  n1 n2

VD

(15)

se puede estimar a partir de S2 cuando se desconoce la varianza de la población.

Ejemplo: se desde estimar la verdadera diferencia de medias en la duración de dos marcas de baterías. Se obtiene los siguientes datos. Marca A n1 = 100 x1 = 38 meses V12 = 36 meses

Tamaño de la muestra Media muestral Varianza poblacional

Marca B n2 = 100 x2 = 35 meses V12 = 25 meses

Obtener el intervalo de confianza del 95% para G, verdadera diferencia de las dos medias:

D  zD / 2

3r

1,96

V12 V 22  n1 n2

D 38  35 3

36 25  100 100

3 r 1,96 (0,78) 1,5 d G d 4,5 meses

295

Actividad Nº 38 Ejercicios del punto 6 1. Una fábrica de golosinas desea estimar el peso medio de los paquetes de caramelos envasados automáticamente por una máquina. De la producción de un día se sacó una muestra de 120 paquetes y se obtuvo una media de 855 gramos y un desvío típico de 47 gramos. Estimar m con un nivel de confianza de 99%. 2. La oficina de Extensión Universitaria de una Universidad desea estimar la proporción de ingresantes que estudiarán carreras humanistas. Selecciona aleatoriamente una muestra 80 fichas de inscripción y encontró que 12 ingresantes estudiarán dichas carreras. Estimar p con un nivel de confianza de 95%. 3. Un examen estándar se aplica a un grupo de estudiantes de nivel superior universitario y a un grupo de estudiantes de nivel superior no universitario. Se obtienen los siguientes docentes:

Muestra Puntuación media Varianza

Sup. Univ. n1 = 72 x1 = 84 V12 = 40

Sup. No Univ. n2 = 36 x2 = 80 V12 = 64

Determinar el intervalo de confianza del 90% para la verdadera diferencia de medias entre las puntuaciones medias de ambos grupos de estudiantes. 4. Supóngase que es la estimación de ejercicio 1, se pretende que el error de la estimación no sea mayor a 3 gramos. ¿Cuál debe ser el tamaño de la muestra para dicha estimación? 5. Si en el ejercicio 2, se desea un error máximo de 2,5%, ¿cuál debe ser el tamaño de la muestra para la estimación? 6. Se realiza un estudio sobre el ingreso de los operarios de una gran compañía metalúrgica. Una muestra de 100 operarios dio como resultado ingreso medio de $520 y una desviación típica de $30. De

296

esos 100 trabajadores, se encontró que 20, tenían un ingreso menor a $350. a) Estimar con el 95% de confianza, la verdadera media de ingreso de todos los operarios. b) Estimar con el 95% de confianza, la verdadera proporción de operarios con ingresos menores de $350.

297

Respuestas a los ejercicios de la Unidad VIII Puntos 1 al 5 1) Consultar el marco teórico del módulo. 2)

a) I ;

3)

P = 13,5

b) I ;

c) I

V = 4,6

Punto 6 1)

843,9 d P d 866,1

2)

0,07 d p d 0,23

3)

1,49 d G d 6,51

4)

n = 16,34

5)

n = 784

6)

a. 514,12 d P d 525,88 b. 0,12 d p d 0,28

298

299

Inferencia estadística

Características

Distribución t

MUESTRAS PEQUEÑAS

Estimaciones de la media poblacional y de la diferencia de medias

Pruebas para la media poblacional y para la diferencia de medias

PRUEBAS DE HIPÓTESIS

PROCEDIMIENTO DE LA PRUEBA DE HIPÓTESIS

TEST DE HIPOTESIS

Prueba de la diferencia de dos medias

Prueba de proporción de la población

Prueba de una media poblacional

MUESTRAS GRANDES

PRUEBAS DE HIPÓTESIS

Diagrama de Contenidos - Unidad IX