Средняя квадратичная ошибка выборки. Средняя ошибка выборки

Рассмотрим подробно перечисленные выше способы формирования выборочной совокупности и возникающие при этом ошибки репрезентативности.

Собственно-случайная выборка основывается на отборе единиц из генеральной совокупности наугад без каких-либо элементов системности. Технически собственно-случайный отбор проводят методом жеребьевки (например, розыгрыши лотерей) или по таблице случайных чисел.

Собственно-случайный отбор «в чистом виде» в практике выборочного наблюдения применяется редко, но он является исходным среди других видов отбора, в нем реализуются основные принципы выборочного наблюдения. Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.

Ошибка выборочного наблюдения - это разность между величиной параметра в генеральной совокупности, и его величиной, вычисленной по результатам выборочного наблюдения. Для средней количественного признака ошибка выборки определяется

Показатель называется предельной ошибкой выборки.

Выборочная средняя является случайной величиной, которая может принимать различные значения в зависимости от того, какие единицы попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок - среднюю ошибку выборки, которая зависит от:

  • 1) объема выборки: чем больше численность, тем меньше величина средней ошибки;
  • 2) степени изменения изучаемого признака: чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки.

При случайном повторном отборе средняя ошибка рассчитывается

Практически генеральная дисперсия точно не известна, но в теории вероятности доказано, что

Так как величина при достаточно больших n близка к 1, можно считать, что. Тогда средняя ошибка выборки может быть рассчитана:

Но в случаях малой выборки (при n30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле

При случайной бесповторной выборке приведенные формулы корректируются на величину. Тогда средняя ошибка бесповторной выборки:

Т.к. всегда меньше, то множитель () всегда меньше 1. Это значит, что средняя ошибка при бесповторном отборе всегда меньше, чем при повторном.

Механическая выборка применяется, когда генеральная совокупность каким-либо способом упорядочена (например, списки избирателей по алфавиту, телефонные номера, номера домов, квартир). Отбор единиц осуществляется через определенный интервал, который равен обратному значению процента выборки. Так при 2% выборке отбирается каждая 50 единица =1/0,02 , при 5% каждая 1/0,05=20 единица генеральной совокупности.

Начало отсчета выбирается разными способами: случайным образом, из середины интервала, со сменой начала отсчета. Главное при этом - избежать систематической ошибки. Например, при 5% выборке, если первой единицей выбрана 13-я, то следующие 33, 53, 73 и т.д.

По точности механический отбор близок к собственно-случайной выборке. Поэтому для определения средней ошибки механической выборки используют формулы собственно-случайного отбора.

При типическом отборе обследуемая совокупность предварительно разбивается на однородные, однотипные группы. Например, при обследовании предприятий это могут быть отрасли, подотрасли, при изучении населения - районы, социальные или возрастные группы. Затем осуществляется независимый выбор из каждой группы механическим или собственно-случайным способом.

Типическая выборка дает более точные результаты по сравнению с другими способами. Типизация генеральной совокупности обеспечивает представительство в выборке каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Следовательно, при нахождении ошибки типической выборки согласно правилу сложения дисперсий () необходимо учесть лишь среднюю из групповых дисперсий. Тогда средняя ошибка выборки:

при повторном отборе

при бесповторном отборе

где - средняя из внутригрупповых дисперсий в выборке.

Серийный (или гнездовой) отбор применяется в случае, когда генеральная совокупность разбита на серии или группы до начала выборочного обследования. Этими сериями могут быть упаковки готовой продукции, студенческие группы, бригады. Серии для обследования выбираются механическим или собственно-случайным способом, а внутри серии производится сплошное обследование единиц. Поэтому средняя ошибка выборки зависит только от межгрупповой (межсерийной) дисперсии, которая вычисляется по формуле:

где r - число отобранных серий;

Средняя і-той серии.

Средняя ошибка серийной выборки рассчитывается:

при повторном отборе

при бесповторном отборе

где R - общее число серий.

Комбинированный отбор представляет собой сочетание рассмотренных способов отбора.

Средняя ошибка выборки при любом способе отбора зависит главным образом от абсолютной численности выборки и в меньшей степени - от процента выборки. Предположим, что проводится 225 наблюдений в первом случае из генеральной совокупности в 4500 единиц и во втором - в 225000 единиц. Дисперсии в обоих случаях равны 25. Тогда в первом случае при 5 %-ном отборе ошибка выборки составит:

Во втором случае при 0,1 %-ном отборе она будет равна:

Таким образом, при уменьшении процента выборки в 50 раз, ошибка выборки увеличилась незначительно, так как численность выборки не изменилась.

Предположим, что численность выборки увеличили до 625 наблюдений. В этом случае ошибка выборки равна:

Увеличение выборки в 2,8 раза при одной и той же численности генеральной совокупности снижает размеры ошибки выборки более чем в 1,6 раза.

Зачем эта презентация? Во-первых, «средняя квадратическая / стандартная ошибка выборки» – длинное и сложное название, которое часто обрубают в задачах до «средней» или «стандартной» ошибки. То, что это одно и то же, в свое время было для меня настоящим открытием. Эта пресловутая ошибка бывает разная и записывается всегда по-разному, что здорово путает. Оказывается, эта штука много где попадается, но постоянно меняет обличья. Из-за этого мы зубрим целую кучу формул, когда можно обойтись однойдвумя.

Как ее обозначают? Как только не измывались над несчастной! Это варианты написания стандартной ошибки для средней в лекциях и учебниках. Над ошибкой доли издевались точно так же, или вообще забыли о ее существовании и записывали сразу формулой, что здорово путает несчастных студентов. Здесь я обозначу ее через «ε» , потому что это, хвала Богам, редкая буква, и ее не перепутать ни с моментом, ни с выборочным СКО.

Собственно, формула (корень из дисперсии на число элементов в выборке или СКО разделить на корень из объема выборки) Это основная формула, фундамент, основа основ. Достаточно выучить только её, а дальше просто поработать головой! Как? Читай дальше!

Разновидности и откуда они взялись 1. Для доли. У доли дисперсия считается необычно. Если долю изучаемого признака взять за p, а долю «всего остального» - за q, то дисперсия равна p*q или p*(1 p). Отсюда взялась формула:

Разновидности и откуда они взялись (2) 2. Где взять генеральное СКО? σ – это, вообще-то, генеральное СКО, которое вам в задаче фиг дадут. Есть выход – выборочная дисперсия S 2 , которая, как всем известно, смещена. Поэтому оцениваем генеральную так: (чтобы и не думала смещаться), и подставляем. А можно сразу так: Но есть такая фишка. Если n>30, разница между S и σ крайне мала ©, поэтому можно схитрить и написать проще:

Разновидности и откуда они взялись (3) «Откуда взялись еще какие-то скобки и энки? ? ? » Есть 2 метода формирования выборки, помним? – повторный и бесповторный. Так вот, все предыдущие формулы годятся для повторной выборки или когда выборка n по отношению к генеральной совокупности N настолько мала, что отношением n/N можно пренебречь. В случае, когда прям принципиально, что выборка бесповторная, или когда в задаче открытым текстом говорится, сколько единиц в генеральной совокупности, обязательно использовать.

Понятие и расчет ошибки выборки.

Задачей выборочного наблюдения является дача верных представлений о сводных показателях всей совокупности на основе некоторой их части, подвергнутой наблюдению. Возможное отклонение выборочной доли и выборочной средней от доли и средней в генеральной совокупности называется ошибкойвыборки или ошибкойрепрезентативности. Чем больше величина этой ошибки, тем больше показатели выборочного наблюдения отличаются от показателей генеральной совокупности.

Различаются:

Ошибки выборки;

Ошибки регистрации.

Ошибки регистрации возникают при неправильном установлении факта в процессе наблюдения. Они свойственны как сплошному наблюдению, так и выборочному, но в выборочном их меньше.

По природе ошибки бывают:

Тенденциозные – преднамеренные, т.е. были отобраны либо лучшие, либо худшие единицы совокупности. При этом наблюдения теряют смысл;

Случайные – основной организационный принцип выборочного наблюдения состоит в том, чтобы не допустить преднамеренного отбора, т.е. обеспечить строгое соблюдение принципа случайного отбора.

Общим правилом случайного отбора является: у отдельных единиц генеральной совокупности должны быть совершенно одинаковые условия и возможности упасть в число единиц, входящих в выборку. Это характеризует независимость результата выборки от воли наблюдателя. Воля же наблюдателя порождает тенденциозные ошибки. Ошибка выборки при случайном отборе носит случайный характер. Она характеризует размеры отклонений генеральных характеристик от выборочных.

В связи с тем, что признаки в изучаемой совокупности варьируют, то состав единиц, попавших в выборку, может не совпадать с составом единиц всей совокупности. Это означает, что Р и не совпадают с W и . Возможное расхождение между этими характеристиками определяется ошибкой выборки, которая определяется по формуле:

где - генеральная дисперсия.

где - выборочная дисперсия.

Отсюда видно, где генеральная дисперсия отличается от выборочной дисперсии в раз.

Существует повторный и бесповторный отбор. Сущность повторного отбора состоит в том, что каждая, попавшая в выборку единица, после наблюдения возвращается в генеральную совокупность и может быть исследована повторно. При повторном отборе средняя ошибка выборки рассчитывается:

Для показателя доли альтернативного признака дисперсия выборки определяется по формуле:

На практике повторный отбор применяется редко. При бесповторном отборе, численность генеральной совокупности N в ходе выборки сокращается, формула средней ошибки выборки для количественного признака имеет вид:



, тогда

Одно из возможных значений, в которых может находиться доля изучаемого признака равно:

где - ошибка выборки альтернативного признака.

Пример .

При выборочном обследовании 10 % изделий партии готовой продукции по методу без повторного отбора получены следующие данные о содержании влаг в образцах.

Определить средний % влажности, дисперсию, среднее квадратическое отклонение, с вероятностью 0,954 возможные пределы, в которых ожидается ср. % влажности всей готовой продукции, с вероятность 0,987 возможные пределы удельного веса стандартной продукции при условии, что к нестандартной партии относятся изделия с влажностью до 13 и выше 19 %.

Лишь с определенной вероятностью можно утверждать, что генеральная доля от выборочной доли и генеральная средняя от выборочной средней, отклоняются в t раз.

В статистике эти отклонения называются предельнымиошибкамивыборки и обозначаются .

Вероятность суждений можно повысить или понизить в t раз. При вероятности 0,683 , при 0,954 , при 0,987 , тогда показатели генеральной совокупности по показателям выборки определяются.

Между показателями выборочной совокупности и искомыми показателями (параметрами) генеральной совокупности, как правило, существуют некоторые разногласия, которые называют ошибками выборки. Общая ошибка выборочной характеристики состоит из ошибок двух родов: ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации свойственны любому статистическому наблюдению и появление их может быть вызвано невнимательностью регистратора, неточностью подсчетов, несовершенством измерительных приборов и т.д.

Ошибки репрезентативности присущи только выборочному наблюдению и обусловлены самой его природой поскольку как бы тщательно и правильно не проводился отбор единиц средние и относительные показатели выборочной совокупности всегда будут в какой-то степени отличаться от соответствующих показателей генеральной совокупности.

Различают систематические и случайные ошибки репрезентативности. Систематические ошибки репрезентативности - это неточности, которые возникают вследствие несоблюдения условий отбора единиц в выборочную совокупность, не предоставление равной возможности каждой единице генеральной совокупности попасть в выборку. Случайные ошибки репрезентативности - это погрешности, которые возникают вследствие того, что выборочная совокупность точно не воспроизводит характеристики генеральной совокупности (среднее, долю, дисперсию и др.) в силу несплошного характера обследования.

При соблюдении принципа случайного отбора размер ошибки выборки прежде всего зависит от численности выборки. Чем больше численность выборки при прочих равных условиях, тем меньше величина ошибки выборки. При большой численности выборки отчетливее проявляется действие закона больших чисел, согласно которому: с вероятностью, сколь угодно близкой к единице, можно утверждать, что при достаточно большом объеме выборки и ограниченной дисперсии выборочные характеристики (средняя доля) будут сколь угодно мало отличаться от соответствующих генеральных характеристик.

Размеры ошибки выборки также непосредственно связаны со степенью варьирования изучаемого признака, а степень варьирования, как отмечалось выше, в статистике характеризуется размером дисперсии (рассеяния): чем меньше дисперсия, тем меньше ошибка выборки, тем более надежные статистические выводы. Поэтому на практике дисперсию отождествляют с ошибкой выборки.

Поскольку параметр генеральной совокупности есть искомая величина и он неизвестен, нужно ориентироваться не на конкретную ошибку, а среднюю из всех возможных выборок.

Если из генеральной совокупности отобрать несколько выборочных совокупностей, то каждая из полученных выборок даст разное значение конкретной ошибки.

Средняя квадратическая величина исчисленная из всех возможных значений конкретных ошибок (;) составит:

где *и - выборочные средние; х - генеральная средняя;)] - численность выборок по величине є1 = ~си - х.

Среднее квадратическое отклонение выборочных средних от генеральной средней называют средней ошибкой выборки.

Зависимость величины ошибки выборки от ее численности и от степени варьирования признака находит выражение в формуле средней ошибки выборки /и.

Квадрат средней ошибки (дисперсия выборочных средних) прямо пропорционален дисперсии Сто и обратно пропорционален численности выборки п:

где - дисперсия признака в генеральной совокупности.

Отсюда среднюю ошибку в общем виде определяют по формуле:

Итак, определив по выборке среднее квадратичное отклонение, можно установить значение средней ошибки выборки, величина которой, как следует из формулы, тем больше, чем больше вариация случайной величины и тем меньше, чем больше численность выборки.

Поэтому по мере роста объема выборки размер средней ошибки уменьшается. Если, например, нужно уменьшить среднюю ошибку выборки в два раза, то численность выборки следует увеличить в четыре раза, если надо уменьшить ошибку выборки в три раза, то объем выборки следует увеличить в девять раз и т. д.

В практических расчетах применяются две формулы средней ошибки выборки для средней и для доли.

При выборочном изучении средних показателей формула средней ошибки такая:

При изучении относительных показателей (частных признаков) формула средней ошибки имеет вид:

где г - доля признака в генеральной совокупности.

Применение приведенных формул средней ошибки предполагает, что известны генеральная дисперсия и генеральная доля. Однако в действительности эти показатели неизвестны и вычислить их невозможно из-за отсутствия данных относительно генеральной совокупности. Поэтому возникает потребность замены генеральной дисперсии и генеральной доли другими, близкими к ним, величинами.

В математической статистике доказано, что такими величинами могут быть выборочная дисперсия(ст) и выборочная доля (со).

С учетом сказанного формулы средней ошибки могут быть записаны так:

Эти формулы дают возможность определить среднюю ошибку при повторной выборке. Применения простой случайной повторной выборки в практике является ограниченным. Прежде всего практически нецелесообразно, а иногда невозможно повторное обследование тех же единиц. Применение бесповторного отбора вместо повторного диктуется также требованием повышения степени точности и надежности выборки. Поэтому на практике чаще используют способ бесповторного случайного отбора. По этому способу отбора единица совокупности, отобранная в выборку, в дальнейшем отборе не участвует. Единицы отбирают из генеральной совокупности, уменьшенной на количество ранее отобранных единиц. Поэтому в связи с изменением численности генеральной совокупности после каждого отбора и вероятности отбора для единиц, что остались, в формулы средней ошибки выборки вводится поправочный множитель

где N - численность генеральной совокупности; п - численность выборки. При достаточно большом значении N можно единицей в знаменателе пренебречь. Тогда

Следовательно, формулы средней ошибки выборки для бесповторного отбора для средней и для доли соответственно имеют вид:

Поскольку п всегда меньше М, то дополнительный множитель всегда меньше единицы. Следовательно, абсолютное значение ошибки выборки при бесповторном отборе всегда будет меньше, чем при повторном.

Если численность выборки достаточно велика, то величина 1 ^ близка к единице, а потому ею можно пренебречь. Тогда среднюю ошибку случайного бесповторного отбора определяют по формуле собственно-случайной повторной выборки.

Рассчитаем для нашего примера среднюю ошибку для урожайности и доли участков с урожайностью 25 ц/га и более.

Средняя ошибка выборки

а) средней урожайности ячменя

Средняя урожайность ячменя в генеральной совокупности х -Г^ = 25,1 ± 0,12 ц/га, то есть находится в пределах от 24,98 до 25,22 ц/га.

Доля участков с урожайностью 25 ц/га и более в генеральной совокупности р

Т-^Г = 0,80 ± 0,07, т.е. находится в пределах от 73 до 87%.

Средняя ошибка выборки показывает возможные отклонения характеристик выборочной совокупности от характеристик генеральной совокупности. Вместе с тем при проведении выборочного наблюдения перед исследователями часто стоит задача расчета не только средней ошибки, но и определение предельной возможной ошибки выборки. Зная среднюю ошибку, можно определить границы, за которые не выйдет величина ошибки выборки. Однако утверждать, что эти отклонения не превысят заданной величины, можно не с абсолютной достоверностью, а лишь с определенной степенью вероятности. Уровень вероятности, что принимается при определении возможных пределов, в которых содержатся значения параметров генеральной совокупности, называется доверительным уровнем вероятности.

Доверительная вероятность - это довольно высокая и, такая, что практически считается осуществленной в каждом конкретном случае, вероятность, что гарантирует получение надежных статистических выводов. Обозначим ее через Г а вероятность превысить этот уровень - а. Итак, а =1 - Р Вероятность а называют уровнем значимости (существенности), который характеризует относительное число ошибочных выводов в общем числе выводов и определяется как разница между единицей и доверительной вероятностью, что принимается.

Уровень доверительной вероятности устанавливает исследователь исходя из степени ответственности и характера задач, которые решаются. В статистических исследованиях в экономике чаще всего принимается уровень доверительной вероятности Г = 0,95; Р = 0,99 (соответственно уровень значимости а = 0,05; а = 0,01) реже Г = 0,999. Например, доверительная вероятность Г = 0,99 означает, что ошибка оценки в 99 случаях из 100 не превысит установленной величины и только в одном случае из 100 может достичь вычисленного значения, или превысить его.

Ошибка выборки, исчисленная с заданной степенью надежной вероятности, называется предельной ошибкой выборки Ер.

Рассмотрим, как устанавливается величина возможной предельной ошибки выборки. Величина ер связана с нормированным отклонением и, которое определяется как отношение предельной ошибки выборки ер к средней ошибки и:

Для удобства расчетов отклонения случайной величины от ее среднего значения обычно выражают в единицах среднего квадратического отклонения. Выражение

называют нормированным отклонением. в В статистической литературе и называют коэффициентом доверия, или коэффициентом кратности средней ошибки выборки.

Так, нормированное отклонение выборочной средней можно определить по формуле:

и _є_р_

Из выражения 1 можно найти возможную предельную ошибку выборки

ер = и/л.

Подставив вместо г. в ее значение, приведем формулы предельных ошибок выборки для средней и для доли при бесповторном случайном отборе:

Следовательно, предельная ошибка выборки зависит от величины средней ошибки и нормированного отклонения и равна ± кратному числу средних ошибок выборки.

Средняя и предельная ошибки выборки - именованные величины и выражаются в тех же единицах, что и средняя арифметическая и среднее квадратическое отклонения.

Нормированное отклонение функционально связано с вероятностью. Для нахождения значений и составлены специальные таблицы (доб.2), по которым можно найти значение и при заданном уровне доверительной вероятности и значения вероятности при известном и.

Приведем значения и и соответствующие им вероятности для выборок с численностью п > 30, что чаще всего используется в практических расчетах:

Следовательно, при и = 1 вероятность отклонения выборочных характеристик от генеральных на величину однократной средней ошибки выборки равна 0,6827. Это означает, что в среднем с каждой 1000 выборок 683 дадут обобщенные характеристики, которые будут отличаться от генеральных обобщенных характеристик не более, чем на величину однократной средней ошибки. При и = 2 вероятность равна 0,9545. в Это означает, что с каждого 1000 выборок 954 дадут обобщенные характеристики, которые будут отличаться от генеральных обобщенных характеристик не более чем на двукратную среднюю ошибку выборки и т.д.

Однако в связи с тем, что, как правило, проводится только одна выборка, то мы говорим, что, например, с вероятностью 0,9545 можно гарантировать, что размеры предельной ошибки не превысят двукратную среднюю ошибку выборки.

Математически доказано, что отношение ошибки выборки к средней ошибки, как правило, не превышает ± 3д при достаточно большой численности п, несмотря на то, что ошибка выборки может приобретать любые значения. Другими словами можно сказать, что при достаточно высокой вероятности суждения (Р = 0,9973) предельная ошибка выборки, как правило, не превышает трех средних ошибок выборки. Поэтому величину Ер = 3д можно принять за предел возможной ошибки выборки.

Определим для нашего примера предельную ошибку выборки для средней урожайности и доли участков с урожайностью 25 ц/га и более. Доверительный уровень вероятности примем равным Р = 0,9545. в По таблице (прил .2) найдем значения и = 2. Средние ошибки выборки для урожайности и доли участков с урожайностью 25 ц/га и больше были найдены ранее и соответственно составляли: Ц~ = ±0,12 ц/га; МР = ± 0,07.

Предельная ошибка средней урожайности ячменя:

Итак, разница между выборочной средней урожайностью и генеральной средней будет не больше 0,24 ц/га. Пределы средней урожайности в генеральной совокупности: х = х ±есть~ = 25,1 + 0,24, то есть от 24,86 до 25,34 ц/га.

Предельная ошибка доли участков с урожайностью 25 ц/га и более:

Следовательно, предельная ошибка в определении доли участков с урожайностью 25 ц/га и больше не превысит 14%, то есть удельный вес участков с указанной урожайностью в генеральной совокупности находится в пределах: г = а> ± ер = 0,80 ± 0,14, то есть от 66 до 94%.

Ошибки систематические и случайные

Модульная единица 2 Ошибки выборки

Поскольку выборка охватывает, как правило, весьма незначительную часть генеральной совокупности, то следует предполагать, что будут иметь место различия между оценкой и характеристикой генеральной совокупности, которую эта оценка отображает. Эти различия получили название ошибок отображения или ошибок репрезентативности. Ошибки репрезентативности подразделяются на два типа: систематические и случайные.

Систематические ошибки - это постоянное завышение или занижение значения оценки по сравнению с характеристикой генеральной совокупности. Причиной появления систематической ошибки является несоблюдение принципа равновероятности попадания каждой единицы генеральной совокупности в выборку, то есть выборка формируется из преимущественно «худших» (или « лучших») представителей генеральной совокупности. Соблюдение принципа равновозможности попадания каждой единицы в выборку позволяет полностью исключить этот тип ошибок.

Случайные ошибки – это меняющиеся от выборки к выборке по знаку и величине различия между оценкой и оцениваемой характеристикой генеральной совокупности. Причина возникновения случайных ошибок- игра случая при формировании выборки, составляющей лишь часть генеральной совокупности. Этот тип ошибок органически присущ выборочному методу. Исключить их полностью нельзя, задача состоит в том, чтобы предсказать их возможную величину и свести их к минимуму. Порядок связанных в связи с этим действий вытекает из рассмотрения трех видов случайных ошибок: конкретной, средней и предельной.

2.2.1 Конкретная ошибка – это ошибка одной проведенной выборки. Если средняя по этой выборке () является оценкой для генеральной средней (0) и, если предположить, что эта генеральная средняя нам известна, то разница = -0 и будет конкретной ошибкой этой выборки. Если из этой генеральной совокупности выборку повторим многократно, то каждый раз получим новую величину конкретной ошибки: …, и так далее. Относительно этих конкретных ошибок можно сказать следующее: некоторые из них будут совпадать между собой по величине и знаку, то есть имеет место распределение ошибок, часть из них будет равна 0, наблюдается совпадение оценки и параметра генеральной совокупности;

2.2.2 Средняя ошибка – это средняя квадратическая из всех возможных по воле случая конкретных ошибок оценки: , где - величина меняющихся конкретных ошибок; частота (вероятность) встречаемости той или иной конкретной ошибки. Средняя ошибка выборки показывает насколько в среднем можно ошибиться, если на основе оценки делается суждение о параметре генеральной совокупности. Приведенная формула раскрывает содержание средней ошибки, но она не может быть использована для практических расчетов, хотя бы потому, что предполагает знание параметра генеральной совокупности, что само по себе исключает необходимость выборки.



Практические расчеты средней ошибки оценки основываются на той предпосылке, что она (средняя ошибка) по сути является средним квадратическим отклонением всех возможных значений оценки. Эта предпосылка позволяет получить алгоритмы расчета средней ошибки, опирающиеся на данные одной единственной выборки. В частности средняя ошибка выборочной средней может быть установлена на основе следующих рассуждений. Имеется выборка (,… ) состоящая из единиц. По выборке в качестве оценки генеральной средней определена выборочная средняя . Каждое значение(,… ) , стоящее под знаком суммы, следует рассматривать как независимую случайную величину, поскольку при бесконечном повторении выборки первая, вторая и т.д. единицы могут принимать любые значения из присутствующих в генеральной совокупности. Следовательно Поскольку, как известно, дисперсия суммы независимых случайных величин равна сумме дисперсий, то . Отсюда следует, что средняя ошибка для выборочной средней будет равная и находится она в обратной зависимости от численности выборки (через корень квадратный из нее) и в прямой от среднего квадратического отклонения признака в генеральной совокупности. Это логично, поскольку выборочная средняя является состоятельной оценкой для генеральной средней и по мере увеличения численности выборки приближается по своему значению к оцениваемому параметру генеральной совокупности. Прямая зависимость средней ошибки от колеблемости признака обусловлена тем, что чем больше изменчивость признака в генеральной совокупности, тем сложнее на основе выборки построить адекватную модель генеральной совокупности. На практике среднее квадратическое отклонение признака по генеральной совокупности заменяется его оценкой по выборке, и тогда формула для расчета средней ошибки выборочной средней приобретает вид:, при этом учитывая смещенность выборочной дисперсии , выборочное среднее квадратическое отклонение рассчитывается по формуле = . Так как символом n обозначена численность выборки. ,то в знаменателе при расчете среднего квадратического отклонения должна использоваться не численность выборки (n), а так называемое число степеней свободы (n-1). Под числом степеней свободы понимается число единиц в совокупности, которые могут свободно варьировать (изменяться), если по совокупности определена какая-либо характеристика. В нашем случае, поскольку по выборке определена ее средняя, свободно варьировать могут единицы.

В таблице 2.2 приведены формулы для расчета средних ошибок различных выборочных оценок. Как видно из этой таблицы, величина средней ошибки по всем оценкам находится в обратной связи с численностью выборки и в прямой с колеблемостью. Это можно сказать и относительно средней ошибки выборочной доли (частости). Под корнем стоит дисперсия альтернативного признака, установленная по выборке ()

Приведенные в таблице 2.2 формулы относятся к так называемому случайному, повторному отбору единиц в выборку. При других способах отбора, о которых речь пойдет ниже, формулы будут несколько видоизменяться.

Таблица 2.2

Формулы для расчета средних ошибок выборочных оценок

2.2.3 Предельная ошибка выборки Знание оценки и ее средней ошибки в ряде случаев совершенно недостаточно. Например, при использовании гормонов при кормлении животных знать только средний размер неразложившихся их вредных остатков и среднюю ошибку, значит подвергать потребителей продукции серьезной опасности. Здесь настоятельно напрашивается необходимость определения максимальной (предельной ошибки ). При использовании выборочного метода предельная ошибка устанавливается не в виде конкретной величины, а виде равных границ

(интервалов) в ту и другую сторону от значения оценки.

Определение границ предельной ошибки основывается на особенностях распределения конкретных ошибок. Для так называемых больших выборок, численность которых более 30 единиц () , конкретные ошибки распределяются в соответствии с нормальным законом распределения; при малых выборках () конкретные ошибки распределяются в соответствии с законом распределения Госсета

(Стьюдента). Применительно к конкретным ошибкам выборочной средней функция нормального распределения имеет вид: , где - плотность вероятности появления тех или иных значений , при условии, что , где выборочные средние; - генеральная средняя, - средняя ошибка для выборочной средней. Поскольку средняя ошибка () является величиной постоянной, то в соответствии с нормальным законом распределяются конкретные ошибки , выраженные в долях средней ошибки, или так называемых нормированных отклонениях.

Взяв интеграл функции нормального распределения, можно установить вероятность того, что ошибка будет заключена в некотором интервале изменения t и вероятность того, что ошибка выйдет за пределы этого интервала (обратное событие). Например, вероятность того, что ошибка не превысит половину средней ошибки (в ту и другую сторону от генеральной средней) составляет 0,3829, что ошибка будет заключена в пределах одной средней ошибки - 0,6827, 2-х средних ошибок -0,9545 и так далее.

Взаимосвязь между уровнем вероятности и интервалом изменения t (а в конечном счете интервалом изменения ошибки) позволяет подойти к определению интервала (или границ) предельной ошибки, увязав его величину с вероятностью осуществления.. Вероятность осуществления -это вероятность того, что ошибка будет находится в некотором интервале. Вероятность осуществления будет «доверительной» в том случае, если противоположное событие (ошибка будет находится вне интервала) имеет такую вероятность появления, которой можно пренебречь. Поэтому доверительный уровень вероятности устанавливают, как правило, не ниже 0,90 (вероятность противоположного события равна 0,10). Чем больше негативных последствий имеет появление ошибок вне установленного интервала, тем выше должен быть доверительный уровень вероятности (0,95; 0,99 ; 0,999 и так далее).

Выбрав доверительный уровень вероятности по таблице интеграла вероятности нормального распределения, следует найти соответствующее значение t, а затем используя выражение =определить интервал предельной ошибки . Смысл полученной величины в следующем – с принятым доверительным уровнем вероятности предельная ошибка выборочной средней не превысит величину .

Для установления границ предельной ошибки на основе больших выборок для других оценок (дисперсии, среднего квадратического отклонения, доли и так далее) используется выше рассмотренный подход, с учетом того, что для определения средней ошибки для каждой оценки используется свой алгоритм.

Что касается малых выборок () то, как уже говорилось, распределение ошибок оценок соответствует в этом случае распределению t - Стьюдента. Особенность этого распределения состоит в том, что в качестве параметра в нем, наряду с ошибкой, присутствует численность выборки,вернее не численность выборки, а число степеней свободы При увеличении численности выборки распределение t-Стьюдента приближается к нормальному, а при эти распределения практически совпадают. Сопоставляя значения величины t-Стьюдента и t - нормального распределения при одной и той же доверительной вероятности можно сказать, что величина t-Стьюдента всегда больше t - нормального распределения, причем, различия возрастают с уменьшением численности выборки и с повышением доверительного уровня вероятности. Следовательно, при использовании малых выборок имеют место по сравнению с выборками большими, более широкие границы предельной ошибки, причем, эти границы расширяются с уменьшением численности выборки и повышением доверительного уровня вероятности.



Понравилась статья? Поделиться с друзьями: