Доверительные интервалы для математического ожидания и дисперсии. Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL

Доверительный интервал для математического ожидания - это такой вычисленный по данным интервал, который с известной вероятностью содержит математическое ожидание генеральной совокупности. Естественной оценкой для математического ожидания является среднее арифметическое её наблюденных значений. Поэтому далее в течение урока мы будем пользоваться терминами "среднее", "среднее значение". В задачах рассчёта доверительного интервала чаще всего требуется ответ типа "Доверительный интервал среднего числа [величина в конкретной задаче] находится от [меньшее значение] до [большее значение]". С помощью доверительного интервала можно оценивать не только средние значения, но и удельный вес того или иного признака генеральной совокупности. Средние значения, дисперсия, стандартное отклонение и погрешность, через которые мы будем приходить к новым определениям и формулам, разобраны на уроке Характеристики выборки и генеральной совокупности .

Точечная и интервальная оценки среднего значения

Если среднее значение генеральной совокупности оценивается числом (точкой), то за оценку неизвестной средней величины генеральной совокупности принимается конкретное среднее, которое рассчитано по выборке наблюдений. В таком случае значение среднего выборки - случайной величины - не совпадает со средним значением генеральной совокупности. Поэтому, указывая среднее значение выборки, одновременно нужно указывать и ошибку выборки. В качестве меры ошибки выборки используется стандартная ошибка , которая выражена в тех же единицах измерения, что и среднее. Поэтому часто используется следующая запись: .

Если оценку среднего требуется связать с определённой вероятностью, то интересующий параметр генеральной совокупности нужно оценивать не одним числом, а интервалом. Доверительным интервалом называют интервал, в котором с определённой вероятностью P находится значение оцениваемого показателя генеральной совокупности. Доверительный интервал, в котором с вероятностью P = 1 - α находится случайная величина , рассчитывается следующим образом:

,

α = 1 - P , которое можно найти в приложении к практически любой книге по статистике.

На практике среднее значение генеральной совокупности и дисперсия не известны, поэтому дисперсия генеральной совокупности заменяется дисперсией выборки , а среднее генеральной совокупности - средним значением выборки . Таким образом, доверительный интервал в большинстве случаев рассчитывается так:

.

Формулу доверительного интервала можно использовать для оценки среднего генеральной совокупности, если

  • известно стандартное отклонение генеральной совокупности;
  • или стандартное отклонение генеральной совокупности не известно, но объём выборки - больше 30.

Среднее значение выборки является несмещённой оценкой среднего генеральной совокупности . В свою очередь, дисперсия выборки не является несмещённой оценкой дисперсии генеральной совокупности . Для получения несмещённой оценки дисперсии генеральной совокупности в формуле дисперсии выборки объём выборки n следует заменить на n -1.

Пример 1. Собрана информация из 100 случайно выбранных кафе в некотором городе о том, что среднее число работников в них составляет 10,5 со стандартным отклонением 4,6. Определить доверительный интервал 95% числа работников кафе.

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Таким образом, доверительный интервал 95% среднего числа работников кафе составил от 9,6 до 11,4.

Пример 2. Для случайной выборки из генеральной совокупности из 64 наблюдений вычислены следующие суммарные величины:

сумма значений в наблюдениях ,

сумма квадратов отклонения значений от среднего .

Вычислить доверительный интервал 95 % для математического ожидания.

вычислим стандартное отклонение:

,

вычислим среднее значение:

.

Подставляем значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

Таким образом, доверительный интервал 95% для математического ожидания данной выборки составил от 7,484 до 11,266.

Пример 3. Для случайной выборки из генеральной совокупности из 100 наблюдений вычислено среднее значение 15,2 и стандартное отклонение 3,2. Вычислить доверительный интервал 95 % для математического ожидания, затем доверительный интервал 99 %. Если мощность выборки и её вариация остаются неизменными, а увеличивается доверительный коэффициент, то доверительный интервал сузится или расширится?

Подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

.

Таким образом, доверительный интервал 95% для среднего данной выборки составил от 14,57 до 15,82.

Вновь подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,01 .

Получаем:

.

Таким образом, доверительный интервал 99% для среднего данной выборки составил от 14,37 до 16,02.

Как видим, при увеличении доверительного коэффициента увеличивается также критическое значение стандартного нормального распределения, а, следовательно, начальная и конечная точки интервала расположены дальше от среднего, и, таким образом, доверительный интервал для математического ожидания увеличивается.

Точечная и интервальная оценки удельного веса

Удельный вес некоторого признака выборки можно интерпретировать как точечную оценку удельного веса p этого же признака в генеральной совокупности. Если же эту величину нужно связать с вероятностью, то следует рассчитать доверительный интервал удельного веса p признака в генеральной совокупности с вероятностью P = 1 - α :

.

Пример 4. В некотором городе два кандидата A и B претендуют на пост мэра. Случайным образом были опрошены 200 жителей города, из которых 46% ответили, что будут голосовать за кандидата A , 26% - за кандидата B и 28% не знают, за кого будут голосовать. Определить доверительный интервал 95% для удельного веса жителей города, поддерживающих кандидата A .

Пусть случайная величина (можно говорить о генеральной совокупности) распределена по нормальному закону, для которого известна дисперсия D = 2 (> 0). Из генеральной совокупности (на множестве объектов которой определена случайная величина) делается выборка объема n. Выборка x 1 , x 2 ,..., x n рассматривается как совокупность n независимых случайных величин, распределенных так же как (подход, которому дано объяснение выше по тексту).

Ранее также обсуждались и доказаны следующие равенства:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Достаточно просто доказать (мы доказательство опускаем), что случайная величина в данном случае также распределена по нормальному закону.

Обозначим неизвестную величину M через a и подберем по заданной надежности число d > 0 так, чтобы выполнялось условие:

P(- a < d) = (1)

Так как случайная величина распределена по нормальному закону с математическим ожиданием M = M = a и дисперсией D = D /n = 2 /n, получаем:

P(- a < d) =P(a - d < < a + d) =

Осталось подобрать d таким, чтобы выполнялось равенство

Для любого можно по таблице найти такое число t, что(t)= / 2. Это число t иногда называют квантилем .

Теперь из равенства

определим значение d:

Окончательный результат получим, представив формулу (1) в виде:

Смысл последней формулы состоит в следующем: с надежностью доверительный интервал

покрывает неизвестный параметр a = M генеральной совокупности. Можно сказать иначе: точечная оценка определяет значение параметра M с точностью d= t / и надежностью.

Задача. Пусть имеется генеральная совокупность с некоторой характеристикой, распределенной по нормальному закону с дисперсией, равной 6,25. Произведена выборка объема n = 27 и получено средневыборочное значение характеристики = 12. Найти доверительный интервал, покрывающий неизвестное математическое ожидание исследуемой характеристики генеральной совокупности с надежностью =0,99.

Решение. Сначала по таблице для функции Лапласа найдем значение t из равенства (t) = / 2 = 0,495. По полученному значению t = 2,58 определим точность оценки (или половину длины доверительного интервала) d: d = 2,52,58 / 1,24. Отсюда получаем искомый доверительный интервал: (10,76; 13,24).

статистический гипотеза генеральный вариационный

Доверительный интервал для математического ожидания нормального распределения при неизвестной дисперсии

Пусть - случайная величина, распределенная по нормальному закону с неизвестным математическим ожиданием M, которое обозначим буквой a . Произведем выборку объема n. Определим среднюю выборочную и исправленную выборочную дисперсию s 2 по известным формулам.

Случайная величина

распределена по закону Стьюдента с n - 1 степенями свободы.

Задача заключается в том, чтобы по заданной надежности и по числу степеней свободы n - 1 найти такое число t , чтобы выполнялось равенство

или эквивалентное равенство

Здесь в скобках написано условие того, что значение неизвестного параметра a принадлежит некоторому промежутку, который и является доверительным интервалом. Его границы зависят от надежности, а также от параметров выборки и s.

Чтобы определить значение t по величине, равенство (2) преобразуем к виду:

Теперь по таблице для случайной величины t, распределенной по закону Стьюдента, по вероятности 1 - и числу степеней свободы n - 1 находим t. Формула (3) дает ответ поставленной задачи.

Задача. На контрольных испытаниях 20-ти электроламп средняя продолжительность их работы оказалась равной 2000 часов при среднем квадратическом отклонении (рассчитанном как корень квадратный из исправленной выборочной дисперсии), равном 11-ти часам. Известно, что продолжительность работы лампы является нормально распределенной случайной величиной. Определить с надежностью 0,95 доверительный интервал для математического ожидания этой случайной величины.

Решение. Величина 1 - в данном случае равна 0,05. По таблице распределения Стьюдента, при числе степеней свободы, равном 19, находим: t = 2,093. Вычислим теперь точность оценки: 2,093121/ = 56,6. Отсюда получаем искомый доверительный интервал: (1943,4; 2056,6).

Доверительный интервал предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ - ε . На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;
Полученное решение сохраняется в файле Word (см. пример). Ниже представлена видеоинструкция, как заполнять исходные данные.

Пример №1 . В колхозе из общего стада в 1000 голов овец выборочной контрольной стрижке подверглись 100 овец. В результате был установлен средний настриг шерсти 4,2 кг на одну овцу. Определить с вероятностью 0,99 среднюю квадратическую ошибку выборки при определении среднего настрига шерсти на одну овцу и пределы, в которых заключена величина настрига, если дисперсия равна 2,5 . Выборка бесповторная.
Пример №2 . Из партии импортируемой продукции на посту Московской Северной таможни было взято в порядке случайной повторной выборки 20 проб продукта «А». В результате проверки установлена средняя влажность продукта «А» в выборке, которая оказалась равной 6 % при среднем квадратическом отклонении 1 %.
Определите с вероятностью 0,683 пределы средней влажности продукта во всей партии импортируемой продукции.
Пример №3 . Опрос 36 студентов показал, что среднее количество учебников, прочитанных ими за учебный год, оказалось равным 6. Считая, что количество учебников, прочитанных студентом за семестр, имеет нормальный закон распределения со средним квадратическим отклонением, равным 6, найти: А) с надежностью 0,99 интервальную оценку для математического ожидания этой случайной величины; Б) с какой вероятностью можно утверждать, что среднее количество учебников, прочитанных студентом за семестр, вычисленное по данной выборке, отклонится от математического ожидания по абсолютной величине не больше, чем на 2.

Классификация доверительных интервалов

По виду оцениваемого параметра:

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Выборка называется повторной , если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной , если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности .
Обозначения основных параметров генеральной и выборочной совокупности.
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли
Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t – коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Пусть произведена выборка из генеральной совокупности, подчиненной закону нормального распределения X N(m ; ). Это основное предположение математической статистики основано на центральной предельной теореме. Пусть известно генеральное среднее квадратическое отклонение , но неизвестно математическое ожидание теоретического распределения m (среднее значение ).

В таком случае среднее выборочное , полученное в ходе эксперимента (п.3.4.2), также будет являться случайной величинойm ;
). Тогда «нормализованное» отклонение
N(0;1) – является стандартной нормальной случайной величиной.

Задача состоит в поиске интервальной оценки для m . Построим двусторонний доверительный интервал для m так, чтобы истинное математическое ожидание принадлежало ему с заданной вероятностью (надежностью) .

Установить такой интервал для величины
– это значит найти максимальное значение этой величины
и минимальное
, которые являются границам критической области:
.

Т.к. такая вероятность равна
, то корень этого уравнения
можно найти с помощью таблиц функции Лапласа (Таблица 3, приложение 1).

Тогда с вероятностью можно утверждать, что случайная величина
, то есть искомое генеральное среднее принадлежит интервалу
. (3.13)

Величину
(3.14)

называют точностью оценки.

Число
квантиль нормального распределения – можно найти как аргумент функции Лапласа (Таблица 3, приложение 1), учитывая соотношение 2Ф(u )= , т.е. Ф(u )=
.

Обратно, по заданному значению отклонения можно найти, с какой вероятностью, неизвестное генеральное среднее принадлежит интервалу
. Для этого нужно вычислить

. (3.15)

Пусть из генеральной совокупности извлечена случайная выборка методом повторного отбора. Из уравнения
можно найти минимальный объем повторной выборки n , необходимый для того, чтобы доверительный интервал с заданной надежностью не превышал наперед заданного значения. Оценку требуемого объема выборки производят по формуле:

. (3.16)

Исследуем точность оценки
:

1) При возрастании объема выборки n величина уменьшается , и значит, точность оценки увеличивается .

2) С увеличением надежности оценки увеличивается значение аргументаu (т.к. Ф (u ) монотонно возрастает) и значит увеличивается . В таком случае увеличение надежности уменьшает точность ее оценки .

Оценку
(3.17)

называют классической (где t - некий параметр, зависящий от и n ), т.к. она характеризует наиболее часто встречающиеся законы распределения.

3.5.3 Доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном среднем квадратическом отклонении 

Пусть известно, что генеральная совокупность подчинена закону нормального распределения X N(m ;), где величина среднего квадратического отклонения неизвестна.

Для построения доверительного интервала оценки генерального среднего в этом случае используется статистика
, имеющая распределение Стъюдента с k = n –1 степенями свободы. Это следует из того, что N(0;1) (см. п.3.5.2), а
(см. п.3.5.3) и из определения распределения Стъюдента (ч.1.п.2.11.2).

Найдем точность классической оценки распределения Стъюдента: т.е. найдем t из формулы (3.17). Пусть вероятность выполнения неравенства
задана надежностью :

. (3.18)

Поскольку T St(n -1), очевидно, что t зависит от и n , поэтому обычно пишут
.

(3.19)

где
– функция распределения Стъюдента сn -1 степенями свободы.

Решая это уравнение относительно m , получим интервал
который с надежностью  покрывает неизвестный параметр m .

Величина t , n -1 , служащая для определения доверительного интервала случайной величины T (n -1), распределенной по Стъюденту с n -1 степенями свободы, называется коэффициентом Стъюдента . Его следует находить по заданным значениям n и  из таблиц «Критические точки распределения Стьюдента». (Таблица 6, приложение 1), которые и представляют собой решения уравнения (3.19).

В итоге получаем следующее выражение точности  доверительного интервала для оценки математического ожидания (генерального среднего), если неизвестна дисперсия:

(3.20)

Т.о., существует общая формула построения доверительных интервалов для математического ожидания генеральной совокупности:

где точность доверительного интервала в зависимости от известной или неизвестной дисперсии находится по формулам соответственно 3.16. и 3.20.

Задача 10. Проведены некоторые испытания, результаты которых занесены в таблицу:

x i

Известно, что они подчиняются закону нормального распределения с
. Найти оценкуm * для математического ожидания m , построить для него 90% доверительный интервал.

Решение:

Итак, m (2.53;5.47).

Задача 11. Глубина моря измеряется прибором, систематическая ошибка которого равна 0, а случайные ошибки распределяются по нормальному закону, со средним квадратическим отклонением =15м. Сколько надо сделать независимых измерений, чтобы определить глубину с ошибками не более 5м при доверительной вероятности 90%?

Решение:

По условию задачи имеем X N(m ; ), где =15м, =5м, =0.9. Найдем объем n .

1) С заданной надежностью = 0.9 найдем по таблицам 3 (Приложение 1) аргумент функции Лапласа u = 1.65.

2) Зная заданную точность оценки =u =5, найдем
. Имеем

. Поэтому число испытаний n 25.

Задача 12. Выборка температуры t за первые 6 дней января представлена в таблице:

Найти доверительный интервал для математического ожидания m генеральной совокупности с доверительной вероятностью
и оценить генеральное стандартное отклонение s .

Решение:


и
.

2) Несмещённую оценку найдем по формуле
:

=-175

=234.84

;
;

=-192

=116


.

3) Поскольку генеральная дисперсия неизвестна, но известна ее оценка, то для оценки математического ожидания m используем распределение Стъюдента (Таблица 6, приложение 1) и формулу (3.20).

Т.к. n 1 =n 2 =6, то ,
, s 1 =6.85 имеем:
, отсюда -29.2-4.1<m 1 < -29.2+4.1.

Поэтому -33.3<m 1 <-25.1.

Аналогично имеем,
, s 2 = 4.8, , поэтому

–34.9< m 2 < -29.1. Тогда доверительные интервалы примут вид: m 1 (-33.3;-25.1) и m 2 (-34.9;-29.1).

В прикладных науках, например, в строительных дисциплинах, для оценки точности объектов используются таблицы доверительных интервалов, которые приведены в соответствующей справочной литературе.



Понравилась статья? Поделиться с друзьями: