Доверительный интервал для математического ожидания при известном. Математика и информатика

Пусть случайая величина Х генеральной совокупности распределена нормально, учитывая, что дисперсия и среднее квадратическое отклонение s этого распределения известны. Требуется оценить неизвестное математическое ожидание по выборочной средней. В данном случае задача сводится к нахождению доверительного интервала для математического ожидания с надёжностью b. Если задаться значением доверительной вероятности (надёжности) b, то можно найти вероятность попадания в интервал для неизвестного математического ожидания, используя формулу (6.9а):

где Ф(t ) – функция Лапласа (5.17а).

В результате можно сформулировать алгоритм отыскания границ доверительного интервала для математического ожидания, если известна дисперсия D = s 2:

  1. Задать значение надёжности – b .
  2. Из (6.14) выразить Ф(t) = 0,5× b. Выбрать значение t из таблицы для функции Лапласа по значению Ф(t) (см. Приложение 1).
  3. Вычислить отклонение e по формуле (6.10).
  4. Записать доверительный интервал по формуле (6.12) такой, что с вероятностью b выполняется неравенство:

.

Пример 5 .

Случайная величина Х имеет нормальное распределение. Найти доверительные интервалы для оценки с надежностью b = 0,96 неизвестного математического ожидания а, если даны:

1) генеральное среднее квадратическое отклонение s = 5;

2) выборочная средняя ;

3) объём выборки n = 49.

В формуле (6.15) интервальной оценки математического ожидания а с надёжностью b все величины, кроме t, известны. Значение t можно найти, используя (6.14): b = 2Ф(t) = 0,96. Ф(t) = 0,48.

По таблице Приложения 1 для функции Лапласа Ф(t) = 0,48 находят соответствующее значение t = 2,06. Следовательно, . Подставив в формулу (6.12) вычисленное значение e, можно получить доверительный интервал: 30-1,47 < a < 30+1,47.

Искомый доверительный интервал для оценки с надёжностью b = 0,96 неизвестного математического ожидания равен: 28,53 < a < 31,47.

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ

1. Пусть известно, что сл. величина x подчиняется нормальному закону с неизвестным средним μ и известной σ 2: X~N(μ,σ 2 ), σ 2 задано, μ не известно. Задано β. По выборке x 1, x 2, … , x n надо построить I β (θ) (сейчас θ=μ), удовлетворяющий (13)

Выборочное среднее (говорят также выборочная средняя) подчиняется нормальному закону с тем же центром μ, но меньшей дисперсией X~N (μ , D ), где дисперсией D =σ 2 =σ 2 /n.

Нам понадобится число К β , определяемое для ξ~N(0,1) условием

Словами: между точками -К β и К β оси абсцисс лежит площадь под кривой плотности стандартного нормального закона, равная β

Например, К 0,90 =1,645 квантиль уровня 0,95 величины ξ

K 0,95 = 1,96. ; К 0,997 =3 .

В частности, отложив от центра любого нормального закона 1,96 стандартных отклонений вправо и столько же влево, мы захватим площадь под кривой плотности, равную 0.95, в силу чего К 0 95 является квантилью уровня 0,95 + 1/2*0,005 = 0,975 для этого за­кона.

Искомый доверительный интервал для генерального среднего μ есть I А (μ) = (х-σ, х+σ),

где δ = (15)

Дадим обоснование:

По сказанному, сл. величина в интервал J=μ±σ попадает с вероятностью β (рис.9). В этом случае величина отклоняется от центра μ меньше, чем на δ , и случайный интервал ± δ (со случайным центром и такой же как у J ширины) накроет точку μ. То есть Є J <=> μ Є I β , а потому Р{μЄІ β } = Р{ Є J }=β.

Итак, постоянный по выборке интервал I β содержит среднее μ с вероятностью β.

Ясно, чем больше n, тем меньше σ и уже интервал, а чем больше мы берем гарантию β, тем доверительный интервал шире.

Пример 21.

По выборке с n=16 для нормальной величины с известной дисперсией σ 2 =64 найдено х=200. Построить доверительный интервал для генерального среднего (иначе говоря, для математического ожидания) μ, приняв β=0,95.

Решение. I β (μ)= ± δ, где δ = К β σ/ -> К β σ/ =1.96*8/ = 4

I 0.95 (μ)=200 4=(196;204).

Делая вывод, что с гарантией β=0,95 истинное среднее принадлежат интервалу (196,204), мы понимаем, что возможна ошибка.

Из 100 доверительных интервалов I 0. 95 (μ) в среднем 5 не содержат μ.

Пример 22.

Каким в условиях предыдущего примера 21 следует взять n, чтобы вдвое сузить доверительный интервал? Чтобы иметь 2δ=4, надо взять

На практике часто пользуются односторонними доверительными интервалами. Так, если полезны или не страшны высокие значения μ, но не.приятны низкие, как в случае с прочностью или надежностью, то резонно строить односторонний интервал. Для этого следует максимально поднять его верхнюю границу. Если мы построим, как в примере 21, двусторонний доверительный интервал для заданного β, а затем максимально расширим его за счет одной из границ, то получим односторонний интервал с большей гарантией β" = β + (1-β) / 2 = (1+β)/2, например, если β = 0,90, то β = 0,90 + 0,10/2 = 0,95.

Например, будем считать, что речь идет о прочности изделия и поднимем верхнюю границу интервала до . Тогда для μ в примере 21 получим односторонний доверительный интервал (196,°°) с нижней границей 196 и доверительной вероятностью β"=0,95+0,05/2=0,975.

Практическим недостатком формулы (15)_является то, что она выведена в предположении, что дисперсия = σ 2 (отсюда и = σ 2 /n) известна; а это бывает в жизни редко. Исключение составляет случай, когда объем выборки велик, скажем, n измеряется сотнями или тысячами и тогда за σ 2 можно практически принять ее оценку s 2 или .

Пример 23.

Положим, в некотором большом городе в результате выборочного обследования жилищных условий жителей получена следу­ющая таблица данных (пример из работы ).

Таблица 8

Исходные данные к примеру

Естественно допустить, что сл. величина X - общая (полезная) площадь (в м 2), приходящаяся на одного человека подчиняется нор­мальному закону. Среднее μ и дисперсия σ 2 не известны. Для μ тре­буется построить 95%-ный доверительный интервал. Чтобы по группи­рованным данным найти выборочные средние и дисперсию, составим следующую таблицу выкладок (табл.9).

Таблица 9

Вычисления X и 5 по сгруппированным данным

N группы з Общая площадь в расчете на 1 человека, м 2 Число жителей в группе г j Середина интервала x j r j x j rjxj 2
До 5.0 2.5 20.0 50.0
5.0-10.0 7.5 712.5 5343.75
10.0-15.0 12.5 2550.0 31875.0
15.0-20.0 17.5 4725.0 82687.5
20.0-25.0 22.5 4725.0 106312.5
25.0-30.0 27.5 3575.0 98312.5
более 30.0 32.5 * 2697.5 87668.75
- 19005.0 412250.0

В этой вспомогательной таблице по формуле (2) подсчитаны первый и второй начальные статистические моменты а 1 и а 2

Хотя дисперсия σ 2 здесь неизвестна, из-за большого объема выборки можно практически применить формулу (15), положив в ней σ= =7.16.

Тогда δ=k 0.95 σ/ =1.96*7.16/ =0.46.

Доверительный интервал для генерального среднего при β=0,95 равен I 0.95 (μ) = ± δ = 19 ± 0.46 = (18.54; 19.46).

Следовательно, среднее значение площади на одного человека в данном городе с гарантией 0.95 лежит в промежутке (18.54; 19.46).



2. Доверительный интервал для математического ожидания μ в случае неизвестной дисперсии σ 2 нормальной величины. Этот интервал для заданной гарантии β строится по формуле ,где ν = n-1 ,

(16)

Коэффициент t β,ν имеет тот же смысл для t – распределения с ν степенями свободы, что к β для распределения N(0,1), а именно:

.

Другими словами, сл. Величина tν попадает в интервал (-t β,ν ; +t β,ν) с вероятностью β. Значения t β,ν даны в табл.10 для β=0.95 и β=0.99.

Таблица 10.

Значения t β,ν

Возвращаясь к примеру 23, видим, что в нем доверительный интервал был построен по формуле (16) с коэффициентом t β,υ =k 0..95 =1.96, т. к. n=1000.

Доверительный интервал предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ - ε . На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;
Полученное решение сохраняется в файле Word (см. пример). Ниже представлена видеоинструкция, как заполнять исходные данные.

Пример №1 . В колхозе из общего стада в 1000 голов овец выборочной контрольной стрижке подверглись 100 овец. В результате был установлен средний настриг шерсти 4,2 кг на одну овцу. Определить с вероятностью 0,99 среднюю квадратическую ошибку выборки при определении среднего настрига шерсти на одну овцу и пределы, в которых заключена величина настрига, если дисперсия равна 2,5 . Выборка бесповторная.
Пример №2 . Из партии импортируемой продукции на посту Московской Северной таможни было взято в порядке случайной повторной выборки 20 проб продукта «А». В результате проверки установлена средняя влажность продукта «А» в выборке, которая оказалась равной 6 % при среднем квадратическом отклонении 1 %.
Определите с вероятностью 0,683 пределы средней влажности продукта во всей партии импортируемой продукции.
Пример №3 . Опрос 36 студентов показал, что среднее количество учебников, прочитанных ими за учебный год, оказалось равным 6. Считая, что количество учебников, прочитанных студентом за семестр, имеет нормальный закон распределения со средним квадратическим отклонением, равным 6, найти: А) с надежностью 0,99 интервальную оценку для математического ожидания этой случайной величины; Б) с какой вероятностью можно утверждать, что среднее количество учебников, прочитанных студентом за семестр, вычисленное по данной выборке, отклонится от математического ожидания по абсолютной величине не больше, чем на 2.

Классификация доверительных интервалов

По виду оцениваемого параметра:

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Выборка называется повторной , если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной , если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности .
Обозначения основных параметров генеральной и выборочной совокупности.
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли
Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t – коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

Доверительный интервал для математического ожидания - это такой вычисленный по данным интервал, который с известной вероятностью содержит математическое ожидание генеральной совокупности. Естественной оценкой для математического ожидания является среднее арифметическое её наблюденных значений. Поэтому далее в течение урока мы будем пользоваться терминами "среднее", "среднее значение". В задачах рассчёта доверительного интервала чаще всего требуется ответ типа "Доверительный интервал среднего числа [величина в конкретной задаче] находится от [меньшее значение] до [большее значение]". С помощью доверительного интервала можно оценивать не только средние значения, но и удельный вес того или иного признака генеральной совокупности. Средние значения, дисперсия, стандартное отклонение и погрешность, через которые мы будем приходить к новым определениям и формулам, разобраны на уроке Характеристики выборки и генеральной совокупности .

Точечная и интервальная оценки среднего значения

Если среднее значение генеральной совокупности оценивается числом (точкой), то за оценку неизвестной средней величины генеральной совокупности принимается конкретное среднее, которое рассчитано по выборке наблюдений. В таком случае значение среднего выборки - случайной величины - не совпадает со средним значением генеральной совокупности. Поэтому, указывая среднее значение выборки, одновременно нужно указывать и ошибку выборки. В качестве меры ошибки выборки используется стандартная ошибка , которая выражена в тех же единицах измерения, что и среднее. Поэтому часто используется следующая запись: .

Если оценку среднего требуется связать с определённой вероятностью, то интересующий параметр генеральной совокупности нужно оценивать не одним числом, а интервалом. Доверительным интервалом называют интервал, в котором с определённой вероятностью P находится значение оцениваемого показателя генеральной совокупности. Доверительный интервал, в котором с вероятностью P = 1 - α находится случайная величина , рассчитывается следующим образом:

,

α = 1 - P , которое можно найти в приложении к практически любой книге по статистике.

На практике среднее значение генеральной совокупности и дисперсия не известны, поэтому дисперсия генеральной совокупности заменяется дисперсией выборки , а среднее генеральной совокупности - средним значением выборки . Таким образом, доверительный интервал в большинстве случаев рассчитывается так:

.

Формулу доверительного интервала можно использовать для оценки среднего генеральной совокупности, если

  • известно стандартное отклонение генеральной совокупности;
  • или стандартное отклонение генеральной совокупности не известно, но объём выборки - больше 30.

Среднее значение выборки является несмещённой оценкой среднего генеральной совокупности . В свою очередь, дисперсия выборки не является несмещённой оценкой дисперсии генеральной совокупности . Для получения несмещённой оценки дисперсии генеральной совокупности в формуле дисперсии выборки объём выборки n следует заменить на n -1.

Пример 1. Собрана информация из 100 случайно выбранных кафе в некотором городе о том, что среднее число работников в них составляет 10,5 со стандартным отклонением 4,6. Определить доверительный интервал 95% числа работников кафе.

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Таким образом, доверительный интервал 95% среднего числа работников кафе составил от 9,6 до 11,4.

Пример 2. Для случайной выборки из генеральной совокупности из 64 наблюдений вычислены следующие суммарные величины:

сумма значений в наблюдениях ,

сумма квадратов отклонения значений от среднего .

Вычислить доверительный интервал 95 % для математического ожидания.

вычислим стандартное отклонение:

,

вычислим среднее значение:

.

Подставляем значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

Таким образом, доверительный интервал 95% для математического ожидания данной выборки составил от 7,484 до 11,266.

Пример 3. Для случайной выборки из генеральной совокупности из 100 наблюдений вычислено среднее значение 15,2 и стандартное отклонение 3,2. Вычислить доверительный интервал 95 % для математического ожидания, затем доверительный интервал 99 %. Если мощность выборки и её вариация остаются неизменными, а увеличивается доверительный коэффициент, то доверительный интервал сузится или расширится?

Подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

.

Таким образом, доверительный интервал 95% для среднего данной выборки составил от 14,57 до 15,82.

Вновь подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,01 .

Получаем:

.

Таким образом, доверительный интервал 99% для среднего данной выборки составил от 14,37 до 16,02.

Как видим, при увеличении доверительного коэффициента увеличивается также критическое значение стандартного нормального распределения, а, следовательно, начальная и конечная точки интервала расположены дальше от среднего, и, таким образом, доверительный интервал для математического ожидания увеличивается.

Точечная и интервальная оценки удельного веса

Удельный вес некоторого признака выборки можно интерпретировать как точечную оценку удельного веса p этого же признака в генеральной совокупности. Если же эту величину нужно связать с вероятностью, то следует рассчитать доверительный интервал удельного веса p признака в генеральной совокупности с вероятностью P = 1 - α :

.

Пример 4. В некотором городе два кандидата A и B претендуют на пост мэра. Случайным образом были опрошены 200 жителей города, из которых 46% ответили, что будут голосовать за кандидата A , 26% - за кандидата B и 28% не знают, за кого будут голосовать. Определить доверительный интервал 95% для удельного веса жителей города, поддерживающих кандидата A .



Понравилась статья? Поделиться с друзьями: