Дисперсионный анализ с учетом погрешности пример. Сумма квадратов типа I, II, III и IV

Чтобы проанализировать изменчивость признака под воздействием контролируемых переменных, применяется дисперсионный метод.

Для изучения связи между значениями – факторный метод. Рассмотрим подробнее аналитические инструменты: факторный, дисперсионный и двухфакторный дисперсионный метод оценки изменчивости.

Дисперсионный анализ в Excel

Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:

  • 1 – определенную действием каждого из изучаемых значений;
  • 2 – продиктованную взаимосвязью между исследуемыми значениями;
  • 3 – случайную, продиктованную всеми неучтенными обстоятельствами.

В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» - «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа .

Работа начинается с оформления таблицы. Правила:

  1. В каждом столбце должны быть значения одного исследуемого фактора.
  2. Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.

Рассмотрим дисперсионный анализ в Excel на примере.

Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).

Внесем данные в таблицу Excel:


Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.



Факторный анализ в Excel: пример

Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:

  • всесторонне описать измеряемый объект (причем емко, компактно);
  • выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
  • классифицировать переменные (определить взаимосвязи между ними);
  • сократить число необходимых переменных.

Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.



Теперь наглядно видно, продажи какого товара дают основной рост.

Двухфакторный дисперсионный анализ в Excel

Показывает, как влияет два фактора на изменение значения случайной величины. Рассмотрим двухфакторный дисперсионный анализ в Excel на примере.

Задача. Группе мужчин и женщин предъявляли звук разной громкости: 1 – 10 дБ, 2 – 30 дБ, 3 – 50 дБ. Время ответа фиксировали в миллисекундах. Необходимо определить, влияет ли пол на реакцию; влияет ли громкость на реакцию.

Дисперсионный анализ есть совокупность статистических методов, предназначенных для проверки гипотез о связи между определенными признаками и исследуемыми факторами, которые не имеют количественного описания, а также для установления степени влияния факторов и их взаимодействия. В специальной литературе его часто называют ANOVA (от англоязычного названия Analysis of Variations). Впервые этот метод был разработан Р. Фишером в 1925 г.

Виды и критерии дисперсионного анализа

Этот метод используется для исследования связи между качественными (номинальными) признаками и количественной (непрерывной) переменной. По сути, он осуществляет тестирование гипотезы о равенстве средних арифметических нескольких выборок. Таким образом, его можно рассматривать как параметрический критерий для сравнения центров сразу нескольких выборок. Если использовать этот метод для двух выборок, то результаты дисперсионного анализа будут идентичны результатам t-критерия Стьюдента. Однако, в отличие от других критериев, это исследование позволяет изучить проблему более детально.

Дисперсионный анализ в статистике базируется на законе: сумма квадратов отклонений объединенной выборки равна сумме квадратов внутригрупповых отклонений и сумме квадратов межгрупповых отклонений. Для исследования используется критерий Фишера для установления значимости различия межгрупповых дисперсий от внутригрупповых. Однако для этого необходимыми предпосылками являются нормальность распределения и гомоскедастичность (равенство дисперсий) выборок. Различают одномерный (однофакторный) дисперсионный анализ и многомерный (многофакторный). Первый рассматривает зависимость исследуемой величины от одного признака, второй - сразу от многих, а также позволяет выявить связь между ними.

Факторы

Факторами называют контролируемые обстоятельства, что влияют на конечный результат. Его уровнем или способом обработки называют значение, которое характеризует конкретное проявление этого условия. Эти цифры обычно подают в номинальной или порядковой шкале измерений. Часто выходные значения измеряют в количественных или порядковых шкалах. Тогда возникает проблема группировки выходных данных в ряде наблюдений, что соответствуют примерно одинаковым числовым значениям. Если количество групп взять чрезмерно большим, то количество наблюдений в них может оказаться недостаточным для получения надежных результатов. Если брать число чрезмерно малым, это может привести к потере существенных особенностей влияния на систему. Конкретный способ группировки данных зависит от объема и характера варьирования значений. Количество и размеры интервалов при однофакторном анализе чаще всего определяют по принципу равных промежутков или по принципу равных частот.

Задачи дисперсионного анализа

Итак, существуют случаи, когда нужно сравнить две или больше выборок. Именно тогда и целесообразно применение дисперсионного анализа. Название метода указывает на то, что выводы делают на основе исследования составляющих дисперсии. Суть изучения состоит в том, что общее изменение показателя разбивают на составляющие части, которые соответствуют действию каждого отдельно взятого фактора. Рассмотрим ряд задач, которые решает типичный дисперсионный анализ.

Пример 1

В цехе есть ряд станков - автоматов, которые изготавливают определенную деталь. Размер каждой детали - это случайная величина, которая зависит от настройки каждого станка и случайных отклонений, возникающих в процессе изготовления деталей. Нужно по данным измерений размеров деталей определить, одинаково ли настроены станки.

Пример 2

Во время изготовления электрического аппарата используют различные типы изоляционной бумаги: конденсаторную, электротехническую и др. Аппарат можно пропитать различными веществами: эпоксидной смолой, лаком, смолой МЛ-2 и др. Утечки можно устранять под вакуумом при повышенном давлении, при нагреве. Пропитывать можно методом погружения в лак, под непрерывной струей лака и т. п. Электрический аппарат в целом заливают определенным компаундом, вариантов которого есть несколько. Показателями качества являются электрическая прочность изоляции, температура перегрева обмотки в рабочем режиме и ряд других. Во время отработки технологического процесса изготовления аппаратов надо определить, как влияет каждый из перечисленных факторов на показатели аппарата.

Пример 3

Троллейбусное депо обслуживает несколько троллейбусных маршрутов. На них работают троллейбусы различных типов, и оплату за проезд собирают 125 контролеров. Руководство депо интересует вопрос: как сравнить экономические показатели работы каждого контролера (выручку) учитывая различные маршруты, различные типы троллейбусов? Как определить экономическую целесообразность выпуска троллейбусов определенного типа на тот или другой маршрут? Как установить обоснованные требования к величине выручки, которую приносит кондуктор, на каждом маршруте в различных типах троллейбусов?

Задача по выбору метода состоит в том, как получить максимум информации относительно влияния на конечный результат каждого фактора, определить числовые характеристики такого влияния, их надежность при минимальных затратах и за максимально короткое время. Решить такие задачи позволяют методы дисперсионного анализа.

Однофакторный анализ

Исследование своей целью ставит оценку величины влияния конкретного случая на анализируемый отзыв. Другой задачей однофакторного анализа может быть сравнение двух или нескольких обстоятельств друг с другом с целью определения разницы их влияния на отзыв. Если нулевую гипотезу отвергают, то следующим этапом будет количественное оценивание и построение доверительных интервалов для полученных характеристик. В случае, когда нулевая гипотеза не может быть отброшенной, обычно ее принимают и делают вывод о сущности влияния.

Однофакторный дисперсионный анализ может стать непараметрическим аналогом рангового метода Краскела-Уоллиса. Он разработан американскими математиком Уильямом Краскелом и экономистом Вильсоном Уоллисом в 1952 г. Этот критерий назначен для проверки нулевой гипотезы о равенстве эффектов влияния на исследуемые выборки с неизвестными, но равными средними величинами. При этом количество выборок должно быть больше двух.

Критерий Джонкхиера (Джонкхиера-Терпстра) был предложен независимо друг от друга нидерландским математиком Т. Дж. Терпстром в 1952 г. и британским психологом Е. Р. Джонкхиером в 1954 г. Его применяют тогда, когда заранее известно, что имеющиеся группы результатов упорядочены по росту влияния исследуемого фактора, который измеряют в порядковой шкале.

М - критерий Бартлетта, предложенный британским статистиком Маурисом Стивенсоном Бартлеттом в 1937 г., применяют для проверки нулевой гипотезы о равенстве дисперсий нескольких нормальных генеральных совокупностей, с которых взяты исследуемые выборки, в общем случае имеющие различные объемы (число каждой выборки должно быть не меньше четырех).

G - критерий Кохрена, который открыл американец Вильям Геммел Кохрен в 1941 г. Его используют для проверки нулевой гипотезы о равенстве дисперсий нормальных генеральных совокупностей по независимым выборкам равного объема.

Непараметрический критерий Левене, предложенный американским математиком Ховардом Левене в 1960 г., является альтернативой критерия Бартлетта в условиях, когда нет уверенности в том, что исследуемые выборки подчиняются нормальному распределению.

В 1974 г. американские статистики Мортон Б. Браун и Алан Б. Форсайт предложили тест (критерий Брауна-Форсайта), который несколько отличается от критерия Левене.

Двухфакторный анализ

Двухфакторный дисперсионный анализ применяют для связанных нормально распределенных выборок. На практике часто используют и сложные таблицы этого метода, в частности те, в которых каждая ячейка содержит набор данных (повторные измерения), соответствующих фиксированным значениям уровней. Если предположения, необходимые для применения двухфакторного дисперсионного анализа, не выполняются, то используют непараметрический ранговый критерий Фридмана (Фридмана, Кендалла и Смита), разработанный американским экономистом Милтоном Фридманом в конце 1930 г. Этот критерий не зависит от типа распределения.

Предполагается только, что распределение величин является одинаковым и непрерывным, а сами они независимы одна от другой. При проверке нулевой гипотезы выходные данные подают в форме прямоугольной матрицы, в которой строки соответствуют уровням фактора В, а столбцы - уровням А. Каждая ячейка таблицы (блока) может быть результатом измерений параметров на одном объекте или на группе объектов при постоянных значениях уровней обоих факторов. В этом случае соответствующие данные подают как средние значения определенного параметра по всем измерениям или объектам исследуемой выборки. Для применения критерия выходных данных необходимо перейти от непосредственных результатов измерений к их рангу. Ранжирование осуществляют по каждой строке отдельно, то есть величины упорядочивают для каждого фиксированного значения.

Критерий Пейджа (L-критерий), предложенный американским статистиком Е. Б. Пейджем в 1963 г., предназначен для проверки нулевой гипотезы. Для больших выборок применяют аппроксимацию Пейджа. Они при условии реальности соответствующих нулевых гипотез подчиняются стандартному нормальному распределению. В случае, когда в строках исходной таблицы есть одинаковые значения, необходимо использовать средние ранги. При этом точность выводов будет тем хуже, чем больше будет количеств таких совпадений.

Q - критерий Кохрена, предложенный В. Кохреном в 1937 г. Его используют в случаях, когда группы однородных субъектов подвергаются воздействиям, количество которых превышает два и для которых возможны два варианта отзывов - условно-отрицательный (0) и условно-положительный (1). Нулевая гипотеза состоит из равенства эффектов влияния. Двухфакторный дисперсионный анализ дает возможность определить существование эффектов обработки, однако не дает возможности установить, для каких именно столбцов существует этот эффект. При решении данной проблемы применяют метод множественных уравнений Шеффе для связанных выборок.

Многофакторный анализ

Задача многофакторного дисперсионного анализа возникает тогда, когда нужно определить влияние двух или большего количества условий на определенную случайную величину. Исследование предусматривает наличие одной зависимой случайной величины, измеренной в шкале разницы или отношений, и нескольких независимых величин, каждая из которых выражена в шкале наименований или в ранговой. Дисперсионный анализ данных является достаточно развитым разделом математической статистики, который имеет массу вариантов. Концепция исследования общая как для однофакторного, так и для многофакторного. Сущность ее состоит в том, что общую дисперсию разбивают на составляющие, что соответствует определенной группировке данных. Каждой группировке данных соответствует своя модель. Здесь мы рассмотрим только основные положения, нужные для понимания и практического использования наиболее применяемых его вариантов.

Дисперсионный анализ факторов требует достаточно внимательного отношения к сбору и подаче входных данных, а особенно к интерпретации результатов. В отличие от однофакторного, результаты которого можно условно разместить в определенной последовательности, результаты двухфакторного требуют более сложного представления. Еще сложнее ситуация возникает, когда есть три, четыре или больше обстоятельств. Из-за этого в модель достаточно редко включают больше трех (четырех) условий. Примером может быть возникновение резонанса при определенной величине емкости и индуктивности электрического круга; проявление химической реакции при определенной совокупности элементов, из которых построена система; возникновение аномальных эффектов в сложных системах при определенном совпадении обстоятельств. Наличие взаимодействия может в корне изменить модель системы и иногда привести к переосмыслению природы явлений, с которыми имеет дело экспериментатор.

Многофакторный дисперсионный анализ с повторными опытами

Данные измерений достаточно часто можно группировать не по двум, а по большему количеству факторов. Так, если рассматривать дисперсионный анализ срока службы покрышек колес троллейбуса с учетом обстоятельств (завод-производитель и маршрут, на котором эксплуатируются покрышки), то можно выделить как отдельное условие сезон, во время которого эксплуатируются покрышки (а именно: зимняя и летняя эксплуатация). В результате будем иметь задачу трехфакторного метода.

При наличии большего количества условий подход такой же, как и в двухфакторном анализе. Во всех случаях модель пытаются упростить. Явление взаимодействия двух факторов проявляется не так часто, а тройное взаимодействие бывает только в исключительных случаях. Включают то взаимодействие, для которого есть предыдущая информация и серьезные основания, чтобы ее учесть в модели. Процесс выделения отдельных факторов и их учета относительно простой. Поэтому часто возникает желание выделить больше обстоятельств. Этим не следует увлекаться. Чем больше условий, тем менее надежной становится модель и тем больше вероятность ошибки. Сама модель, в которую входит большое количество независимых переменных, становится достаточно сложной для интерпретации и неудобной для практического использования.

Общая идея дисперсионного анализа

Дисперсионный анализ в статистике - это метод получения результатов наблюдений, зависимых от различных одновременно действующих обстоятельств, и оценки их влияния. Управляемую переменную величину, которая соответствует способу воздействия на объект исследования и в некоторый период времени приобретает определенное значение, называют фактором. Они могут быть качественными и количественными. Уровни количественных условий приобретают определенное значение на числовой шкале. Примерами являются температура, давление прессования, количество вещества. Качественные факторы - это разные вещества, разные технологические способы, аппараты, наполнители. Их уровням соответствует шкала наименований.

К качественным можно отнести также вид упаковочного материала, условия хранения лекарственной формы. Сюда же рационально отнести степень измельчения сырья, фракционный состав гранул, имеющих количественное значение, однако плохо поддающихся регулированию, если использовать количественную шкалу. Число качественных факторов зависит от вида лекарственной формы, а также физических и технологических свойств лекарственных веществ. Например, из кристаллических веществ можно получать таблетки прямым прессованием. В этом случае достаточно провести выбор скользящих и смазывающих веществ.

Примеры качественных факторов для различных видов лекарственных форм

  • Настойки. Состав экстрагента, тип экстрактора, способ подготовки сырья, способ получения, способ фильтрации.
  • Экстракты (жидкие, густые, сухие). Состав экстрагента, способ экстракции, тип установки, способ удаления экстрагента и балластных веществ.
  • Таблетки. Состав вспомогательных веществ, наполнители, разрыхлители, связующие, смазывающие и скользящие вещества. Способ получения таблеток, вид технологического оборудования. Вид оболочки и ее компонентов, пленкообразователи, пигменты, красители, пластификаторы, растворители.
  • Инъекционные растворы. Вид растворителя, способ фильтрации, природа стабилизаторов и консервантов, условия стерилизации, способ заполнения ампул.
  • Суппозитории. Состав суппозиторной основы, способ получения суппозиториев, наполнителей, упаковки.
  • Мази. Состав основы, структурные компоненты, способ приготовления мази, вид оборудования, упаковка.
  • Капсулы. Вид оболочечного материала, способ получения капсул, тип пластификатора, консерванта, красителя.
  • Линименты. Способ получения, состав, тип оборудования, тип эмульгатора.
  • Суспензии. Вид растворителя, вид стабилизатора, метод диспергирования.

Примеры качественных факторов и их уровней, изучаемых в процессе изготовления таблеток

  • Разрыхлитель. Крахмал картофельный, глина белая, смесь натрия гидрокарбоната с кислотой лимонной, магния карбонат основной.
  • Связывающий раствор. Вода, крахмальный клейстер, сахарный сироп, раствор метилцеллюлозы, раствор оксипропилметилцеллюлозы, раствор поливинилпирролидона, раствор поливинилового спирта.
  • Скользящая вещество. Аэросил, крахмал, тальк.
  • Наполнитель. Сахар, глюкоза, лактоза, натрия хлорид, фосфат кальция.
  • Смазывающее вещество. Стеариновая кислота, полиэтиленгликоль, парафин.

Модели дисперсионного анализа в исследовании уровня конкурентоспособности государства

Одним из важнейших критериев оценки состояния государства, по которым проводится оценка уровня его благосостояния и социально-экономического развития, является конкурентоспособность, то есть совокупность свойств, присущих национальной экономике, которые определяют способность государства конкурировать с другими странами. Определив место и роль государства на мировом рынке, можно установить четкую стратегию обеспечения экономической безопасности в международных масштабах, ведь она является залогом положительных взаимоотношений России со всеми игроками мирового рынка: инвесторами, кредиторами, правительствами государств.

Для сравнения уровня конкурентоспособности государств проводится ранжирование стран с помощью комплексных индексов, которые включают различные взвешенные показатели. В основу этих индексов заложены ключевые факторы, влияющие на экономическое, политическое и т. п. положение. Комплекс моделей исследования конкурентоспособности государства предусматривает использование методов многомерного статистического анализа (в частности, это дисперсионный анализ (статистика), эконометрическое моделирование, принятие решений) и включает следующие основные этапы:

  1. Формирование системы показателей-индикаторов.
  2. Оценку и прогнозирование индикаторов конкурентоспособности государства.
  3. Сравнение показателей-индикаторов конкурентоспособности государств.

А теперь рассмотрим содержание моделей каждого из этапов данного комплекса.

На первом этапе с помощью методов экспертного изучения формируется обоснованный комплекс экономических показателей-индикаторов оценки конкурентоспособности государства с учетом специфики ее развития на основе международных рейтингов и данных статистических отделов, отражающих состояние системы в целом и ее процессов. Выбор этих показателей обоснован необходимостью отобрать те из них, которые наиболее полно с точки зрения практики позволяют определить уровень государства, его инвестиционную привлекательность и возможности относительной локализации существующих потенциальных и реально действующих угроз.

Основные показатели-индикаторы международных рейтинг-систем - это индексы:

  1. Глобальной конкурентоспособности (ИГК).
  2. Экономической свободы (ИЭС).
  3. Развития человеческого потенциала (ИРЧП).
  4. Восприятия коррупции (ИВК).
  5. Внутренних и внешних угроз (ИВЗЗ).
  6. Потенциала международного влияния (ИПМВ).

Второй этап предусматривает оценку и прогнозирование индикаторов конкурентоспособности государства по международным рейтингам для исследуемых 139 государств мира.

Третий этап предусматривает сравнение условий конкурентоспособности государств при помощи методов корреляционно-регрессионного анализа.

Используя результаты исследования можно определить характер протекания процессов в целом и по отдельным составляющим конкурентоспособности государства; проверить гипотезу о влиянии факторов и их взаимосвязи при соответствующем уровне значимости.

Реализация предложенного комплекса моделей позволит не только оценить сложившуюся ситуацию уровня конкурентоспособности и инвестиционной привлекательности государств, но и проанализировать недостатки управления, предупредить ошибки неправильных решений, не допустить развития кризиса в государстве.

Курсовая работа по математике

Введение

Понятие дисперсионного анализа

Однофакторный дисперсионный анализ (Практическая реализация в IBM SPSS Statistics 20)

Однофакторный дисперсионный анализ (Практическая реализация в Microsoft Office 2013)

Заключение

Список использованных источников

Введение

Актуальность темы. Развитие математической статистики начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса в 1795 году и до сих пор развивается. В статистическом анализе существует параметрический метод «Однофакторный дисперсионный анализ». В настоящее время его используют в экономике при проведении исследования рынка для сопоставимости результатов (например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы на сколько данные опроса отличаются или не отличаются друг от друга, в психологии при проведении различного рода исследований), при составлении научных тестов сравнения, или исследовании каких-либо социальных групп, ну и для решении задач по статистике.

Цель работы. Познакомится с таким статистическим методом, как однофакторный дисперсионный анализ, а так же с реализацией его на ПК в различных программах и выполнить сравнение этих программ.

Изучить теорию однофакторного дисперсионного анализа.

Изучить программы для решения задач на однофакторный анализ.

Провести сравнительный анализ данных программ.

Достижения работы: Практическая часть работы полностью проделана автором: подбор программ, подбор задач, их решение на ПК, после проведен сравнительный анализ. В теоритической части проведена классификация групп дисперсионного анализа. Данная работа была апробирована в качестве доклада на студенческой научной сессии «Избранные вопросы высшей математики и методики преподавании математики»

Структура и объём работы. Работа состоит из введения, заключения, содержания и списка литературы, включающего 4 наименования. Полный объём работы - 25 страниц печатного текста. Работа содержит 1 пример решенный 2 программами.

Понятие дисперсионного анализа

Часто возникает необходимость исследовать влияние одной или нескольких независимых переменных (факторов) на одну или несколько зависимых переменных (результативных признаков), подобные задачи можно решать методами дисперсионного анализа, автором которого является Р. Фишер.

Дисперсионный анализ ANOVA - совокупность статистических методов обработки данных, позволяющих анализировать изменчивость одного или нескольких результативных признаков под влиянием контролируемых факторов (независимых переменных) . Здесь под фактором понимается некоторая величина, определяющая свойства исследуемого объекта или системы, т.е. причина, влияющая на конечный результат. При проведении дисперсионного анализа важно правильно выбрать источник и объект влияния, т.е. определить зависимые и независимые переменные.

В зависимости от признаков классификации различают несколько классификационных групп дисперсионного анализа (табл. 1).

По количеству учитываемых факторов:Однофакторный анализ - исследуется влияние одного фактора;Многофакторный анализ - изучается одновременное воздействие двух или более факторов.По наличию связи между выборками значений:Анализ несвязанных (различных) выборок - проводится, когда имеется несколько групп объектов исследования, находящихся в разных условиях. (Проверяется нулевая гипотеза H0: среднее значение зависимой переменной одинаково в разных условиях замера, т.е. не зависит от исследуемого фактора.);Анализ связанных (одних и тех же) выборок - проводится для двух и более замеров, проведенных на одной и той же группе исследуемых объектов в разных условиях. Здесь возможно влияние неучтенного фактора, которое можно ошибочно приписать изменению условий.По количеству зависимых переменных, подверженных воздействию факторов.Одномерный анализ (АNOVA или АМСОVА - ковариационный анализ) - воздействию факторов подвержена одна зависимая переменная;Многомерный анализ (МАNОVА - многомерный дисперсионный анализ или МАNСОVА - многомерный ковариационный анализ) - воздействию факторов подвержено несколько зависимых переменных.По цели исследования.Детерминированные - уровни всех факторов заранее фиксированы и проверяется именно их влияние (проверяется гипотеза H0 об отсутствии различий между средними уровнями);Случайные - уровни каждого фактора получены как случайная выборка из генеральной совокупности уровней фактора (проверяется гипотеза Н0 о том, что дисперсия средних значений отклика, вычисленная для различных уровней фактора, не отлична от нуля);

В однофакторном дисперсионном анализе проводится проверка статистической значимости различий выборочных средних двух или более совокупностей для этого предварительно формируются гипотезы.

Нулевая гипотеза H0: средние величины результативного признака во всех условиях действия фактора (или градациях фактора) одинаковы

Альтернативная гипотеза H1: средние величины результативного признака во всех условиях действия фактора различны.

Методы дисперсионного анализа могут применяться для нормально распределенных совокупностей (многомерные аналоги параметрических тестов) и для совокупностей, не имеющих определенных распределений (многомерные аналоги непараметрических тестов). В первом случае необходимо предварительно установить, что распределение результативного признака является нормальным. Для проверки нормальности распределения признака можно использовать показатели асимметрии A =, , и эксцесса E =, , где , . - значение результативного признака и его среднее значение; - среднеквадратическое отклонение результативного признака; .

Число наблюдений;

Ошибки репрезентативности для показателей A и E

Если показатели асимметрии и эксцесса не превышают более чем в 3 раза свои ошибки репрезентативности, т.е. А <3тА и Е <3тЕ, то распределение можно считать нормальным. Для нормальных распределений показатели А и Е равны нулю.

Данные, относящиеся к одному условию действия фактора (к одной градации), называют дисперсионным комплексом. При проведении дисперсионного анализа должно соблюдаться равенство дисперсий между комплексами. При этом выбор элементов должен осуществляться случайным образом.

Во втором случае, когда выборочные совокупности имеют произвольные распределения, используются непараметрические (ранговые) аналоги однофакторного дисперсионного анализа (критерии Крускала - Уоллиса, Фридмана).

Рассмотрим графическую иллюстрацию зависимости ставки доходности акций от положения дел в экономике страны (рис. 1, а). Здесь исследуемым фактором является уровень состояния экономики (точнее, три уровня ее состояния), а результативным признаком - ставка доходности. Приведенное распределение показывает, что данный фактор оказывает существенное влияние на доходность, т.е. с улучшением дел в экономике растет и доходность акций, что не противоречит здравому смыслу.

Заметим, что выбранный фактор имеет градации, т.е. его величина изменялась при переходе от одной градации к другой (от одного состояния экономики к другому).

Рис. 1. Соотношение влияние фактора и внутригруппового разброса: а-существенное влияние фактора; б - незначимое влияние фактора

Группа градаций фактора является лишь частным случаем, кроме того, фактор может иметь градации, представленные даже в номинальной шкале. Потому чаще говорят не о градациях фактора, а о различных условиях его действия.

Рассмотрим теперь идею дисперсионного анализа, в основе которой лежит правило сложения дисперсий: общая дисперсия равна сумме межгрупповой и средней из внутригрупповых дисперсий:

Общая дисперсия, возникающая под влиянием всех факторов

Межгрупповая дисперсия, обусловленная влиянием всех прочих факторов;

Средняя внутригрупповая дисперсия, вызванная влиянием группировочного признака.

Влияние группированного признака хорошо видно на рис.1 а, так как влияние фактора существенно по сравнению с внутригрупповым разбросом, следовательно, межгрупповая дисперсия будет больше внутригрупповой ( > ), а на рис. 1, б наблюдается обратная картина: здесь преобладает внутригрупповой разброс и практически отсутствует влияние фактора.

На этом же принципе построен и дисперсионный анализ, только в нем используются не дисперсии, а средние квадратов отклонений (, , ), являющиеся несмещенными оценками соответствующих дисперсий. Их получают делением сумм квадратов отклонений на соответствующее число степеней свободы

Совокупности в целом;

Внутригрупповые средние;

Межгрупповые средние;

Общая средняя по всем измерениям (по всем группам);

Групповая средняя для j-й градации фактора.

Математические ожидания соответственно для внутригрупповой и межгрупповой суммы квадратов отклонений вычисляются по формулам: (Модеь с фиксированным фактором),

.

Е () = Е () = , то нулевая гипотеза H0 об отсутствии различий между средними подтверждается, следовательно, исследуемый фактор не оказывает существенного влияния (см. рис. 1, б). Если фактическое значение F-критерия Фишера F= Е () /Е () окажется больше критического то нулевая гипотеза H0 при уровне значимости , отвергается и принимается альтернативная гипотеза H1, - о существенном воздействии фактора рис. 1, а. .

Однофакторный дисперсионный анализ

Дисперсионный анализ, который рассматривает только одну переменную называется однофакторным дисперсионным анализом (One -Way ANOVA).

Имеется группа из п объектов наблюдения с измеренными значениями некоторой исследуемой переменной. На переменную оказывает воздействие некоторый качественный фактор с несколькими уровнями (градациями) воздействия. Измеренные значения переменной при различных уровнях фактора приведены в таблице 2 (они также могут быть представлены в матричном виде).

Таблица 2.

Табличная форма задания исходных данных для однофакторного анализа

Номер объекта наблюдения ()Значения переменной при уровне(градации) фактора (самый низкий)(низкий)… (самый высокий)1 2 … n.Здесь каждый уровень может содержать разное количество откликов, измеренных при одном уровне фактора, тогда каждому столбцу будет соответствовать свое значение . Требуется оценить значимость влияния данного фактора на исследуемую переменную. Для решения этой задачи может использоваться однофакторная модель дисперсионного анализа. Однофакторная дисперсионная модель.

Значение исследуемой переменой для -го объекта наблюдения при -м уровне фактора;

Групповая средняя для - го уровня фактора;

Эффект, обусловленный влиянием -го уровня фактора;

Случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов. Итак выделим основные ограничения использования дисперсионного анализа:

Равенство нулю математического ожидания случайной компоненты: = 0.

Случайная компонента , а следовательно, и имеют нормальный закон распределения.

Число градаций факторов должно быть не менее трех.

Данная модель в зависимости от уровней фактора с помощью F-критерия Фишера позволяет проверить одну из нулевых гипотез.

При выполнении дисперсионного анализа для связанных выборок возможна проверка еще одной нулевой гипотезы H0{и) - индивидуальные различия между объектами наблюдения выражены не более, чем различия, обусловленные случайными причинами.

Однофакторный дисперсионный анализ

(Практическая реализация в IBM SPSS Statistics 20)

Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). Изучается действие только одной переменной (фактора) на исследуемый признак. Мы уже рассмотрели пример из экономики теперь приведем пример из психологии например, как изменяется время решения задачи при разных условиях мотивации испытуемых (низкой, средней, высокой мотивации) или при разных способах предъявления задачи (устно, письменно или в виде текста с графиками и иллюстрациями), в разных условиях работы с задачей (в одиночестве, в комнате с преподавателем, в классе). В первом случае фактором является мотивация, во втором - степень наглядности, в третьем - фактор публичности.

В данном варианте метода влиянию каждой из градаций подвергаются разные выборки испытуемых. Градаций фактора должно быть не менее трех.

Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов (табл. 3) .

Таблица 3

Количество воспроизведенных слов

ИспытуемогоГруппа 1 низкая скоростьГруппа 2 средняя скоростьГруппа 3 высокая скорость187427853953454656626874суммы433724среднее7,176,174,00

Сформулируем гипотезы: различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.

Решение проведем в среде SPSS по следующему алгоритму

Запустим программу SPSS

Введем числовые значения в окне данные

Рис. 1. Ввод значений в SPSS

В окне Переменные опишем все исходные данные, согласно условию

Задачи

Рисунок 2 Окно переменные

Для наглядности в графе метка опишем название таблиц

В графе Значения опишем номер каждой группы

Рисунок 3 Метки значений

Все это делается для наглядности т.е. этими настройками можно пренебречь

В графе шкала, во втором столбце нужно поставить значение номинальная

В окне данные закажем однофакторный дисперсионный анализ с помощью меню «Анализ» Сравнение средних

Однофакторный дисперсионный анализ…

Рисунок 4 Функция Однофакторный дисперсионный анализ

В открывшемся диалоговом окне Однофакторный дисперсионный анализ выделим зависимую переменную и внесем ее в список зависимых, а переменную фактор в окно фактор

Рисунок 5 выделение списка зависимых и фактора

Настроим некоторые параметры для качественного выведения данных

Рисунок 6 Параметры для качественного выведения данных

Вычисления по выбранному алгоритму однофакторного дисперсионного анализа начинается после щелчка ОК

По окончанию вычислений в окне просмотра выводятся результаты расчета

Описательные статистикиГруппаNСреднееСтд. ОтклонениеСтд. Ошибка95% доверительный интервал для среднегоМинимумМаксимумНижняя границаВерхняя границанизкая скорость67,171,472,6015,628,7159средняя скорость66,171,472,6014,627,7148высокая скорость64,001,414,5772,525,4826Итого185,781,927,4544,826,7429Таблица 2. Описательные статистики

В таблице Описательные статистики приведены основные показатели по скоростям в группах и их итоговые значения

Количество наблюдений в каждой группе и суммарное

Среднее - среднее арифметическое наблюдений в каждой группе и по всем группам вместе

Стд. Отклонение, Стд. Ошибка - среднее квадратическое отклонение и стандартные отклонения

% доверительный интервал для среднего - эти интервалы являются наиболее точными для каждой группы и по всем группам вместе , нежели если взять интервалы ниже или выше этих границ.

Минимум, Максимум - минимальные и максимальные значения для каждой группы, которые услышали испытуемые

однофакторный дисперсионный случайный

Критерий однородности дисперсийгруппаСтатистика Ливиняст.св.1ст.св.2Знч.,089215,915

Критерий однородности Ливиня используется для проверки дисперсий на гомогенность(однородность). В данном случае он подтверждает незначимость различий между дисперсиями, поскольку значение = 0.915 т.е явно больше 0.05. Поэтому результаты полученные с помощью дисперсионного анализа признаются корректными.

В таблице однофакторный дисперсионный анализ приведены результаты Однофакторного ДА

Сумма квадратов «между группами» представляет собой сумму квадратов разностей между общим средним значением и средними значениями в каждой группе с учетом весовых коэффициентов, равных числу объектов в группе

«Внутри групп» представляет собой сумму квадратов разностей среднего значения каждой группы и каждого значения этой группы

Столбец «ст.св.» содержит число степеней свободы V:

Межгрупповое (v=число групп - 1);

Внутригрупповое (v=число объектов - число групп - 1);

«средний квадрат» содержит отношение суммы квадратов к числу степеней свободы.

В столбце «F» приведено отношение среднего квадрата между группами к среднему квадрату внутри групп.

В столбце «знч» содержится значение вероятности того, что наблюдаемые различия случайны

Таблица 4 Формулы

Графики средних

По графику видно, что он убывает. Так же можно определить по таблице Fк k1=2, k2=15 табличное значение статистики равно 3,68. По правилу если , то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера (7.45>3.68), следовательно принимается альтернативная гипотеза. Таким образом возвращаясь к условию задачи можно сделать вывод нулевая гипотеза отклоняется и принимается альтернативная : различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы ). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

Однофакторный дисперсионный анализ

(Практическая реализация в Microsoft Office 2013)

На этом же примере рассмотрим однофакторный дисперсионный анализ в Microsoft Office 2013

Решение задачи в Microsoft Excel

Откроем Microsoft Excel.


Рисунок 1. Запись данных в Excel

Преобразуем данные в числовой формат. Для этого на вкладке главное есть пункт Формат а в нем есть подпункт Формат ячейки. На экранe появится окно Формат ячеек. Рис. 2 Выберем Числовой формат и введенные данные преобразуются. Как показано на Рис.3

Рисунок 2 Преобразуем в числовой формат

Рисунок 3 Результат после преобразование

На вкладке данные есть пункт анализ данных кликнем по нему.

Выберем Однофакторный дисперсионный анализ

Рисунок 6 Анализ данных

На экране появится окно Однофакторный дисперсионный анализ для проведения дисперсионного анализа данных (Рис.7). Произведем настройку параметров

Рис. 7 Настройка параметров для однофакторного анализа

Щелкнем мышью в поле Входной интервал. Выделим диапазон ячеек B2::F9, данные в котором нужно проанализировать. В поле Входной интервал группы элементов управления Входные данные, появится указанный диапазон.

Если в группе элементов управления Входные данные не установлен переключатель по строкам, то установите его, чтобы программа Ехcel воспринимала группы данных по строкам.

Если нужно Установите флажок Метки в первой строке в группе элементов управления Входные данные, если первый столбец выделенного диапазона данных содержит названия строк.

В поле ввода Альфа группы элементов управления Входные данные по умолчанию отображается величина 0,05, которая связана с вероятностью возникновения ошибки в дисперсионном анализе.

Если в группе элементов управления Параметры вывода не установлен переключатель выходной интервал то установим его либо выберем переключатель новый рабочий лист, чтобы данные были перенесены на новый лист.

Нажмем кнопку ОК, чтобы закрыть окно Однофакторный дисперсионный анализ. Появятся результаты дисперсионного анализа (Рис.8).

Рисунок 8 Вывод данных

В диапазоне ячеек А4:Е7 расположены результаты описательной статистики. В строке 4 находятся названия параметров, в строках 5 - 7 - статистические значения, вычисленные по партиям. В столбце «Счет» расположены количества измерений, в столбце «Сумма» - суммы величин, в столбце «Среднее» - средние арифметические значения, в столбце «Дисперсия» - дисперсии.

Полученные результаты показывают, что наибольшая средняя разрывная нагрузка в партии №1, а наибольшая дисперсия разрывной нагрузки -в партии №2, №1.

В диапазоне ячеек А10:G15 отображается информация, касающаяся существенности расхождений между группами данных. В строке 11 находятся названия параметров дисперсионного анализа, в строке 12 - результаты межгрупповой обработки, в строке 13 - результаты внутригрупповой обработки, а в строке 15 - суммы значений этих двух строк.

В столбце SS расположены величины варьирования, т.е. суммы квадратов по всем отклонениям. Варьирование, как и дисперсия, характеризует разброс данных.

В столбце df находятся значения чисел степеней свободы. Данные числа указывают на количество независимых отклонений, по которым будет вычисляться дисперсия. Например, межгрупповое число степеней свободы равняется разности количеству групп данных и единицы. Чем больше число степеней свободы, тем выше надежность дисперсионных параметров. Данные степеней свобод в таблице показывают, что для внутригрупповых результатов надежность выше, чем для межгрупповых параметров.

В столбце MS расположены величины дисперсии, которые определяются отношением варьирования и числа степеней свобод. Дисперсия характеризует степень разброса данных, но в отличие от величины варьирования, не имеет прямой тенденции увеличиваться с ростом числа степеней свобод. Из таблицы видно, что межгрупповая дисперсия значительно больше внутригрупповой дисперсии.

В столбце F находится, значение F-статистики, вычисляемое отношением межгрупповой и внутригрупповой дисперсий.

В столбце F критическое расположено F-критическое значение, рассчитываемое по числу степеней свободы и величине Альфа. F-статистика и F-критическое значение используют критерий Фишера-Снедекора.

Если F-статистика больше F-критического значения, то можно утверждать, что различия между группами данных носят неслучайный характер. т.е. на уровне значимости α = 0,05 (с надежностью 0,95) нулевая гипотеза отвергается и принимается альтернативная: что скорость предъявления слов влияет на объем их воспроизведения. В столбце Р-значение находится значение вероятности того, что расхождение между группами случайно. Так как в таблице данная вероятность очень мала, то отклонение между группами носит неслучайный характер.

Сравнение IBM SPSS Statistics 20 и Microsoft Office 2013

однофакторный дисперсионный случайный программа

Посмотрим на выводы программ, для этого взглянем еще раз на скриншоты.

Однофакторный дисперсионный анализгруппаСумма квадратовст.св.Средний квадратFЗнч.Между группами31,444215,7227,447,006Внутри групп31,667152,111Итого63,11117

Таким образом программа IBM SPSS Statistics 20 лучше производит счет, может округлять числа, строить наглядный график (см. полное решение) по которому можно определить ответ, в ней более подробно описаны, как условия задачи, так и их решение. В Microsoft Office 2013 есть свои плюсы, во - первых это, конечно, его распространённость так как Microsoft Office 2013 установлен почти в каждом компьютере, он выводит Fкритическое, что не предусмотрено в SPSS Statistics, а также там тоже просто и удобно считать. Все-таки обе этих программы очень хорошо подходят для решения задач на однофакторный дисперсионный анализ, у каждой из них есть свои плюсы и минусы, но если считать большие задачи с большими условиями рекомендовал бы SPSS Statistics.

Заключение

Дисперсионный анализ применяется во всех областях научных исследований, где необходимо проанализировать влияние различных факторов на исследуемую переменную. В современном мире есть множество задач на однофакторный дисперсионный анализ как в экономике, психологии, биологии. В результате изучения теоретического материала было установлено, что основой дисперсионного анализа является теорема о сложении дисперсий, из множество пакетов прикладных программ, в которых реализован аппарат дисперсионного анализа, подобранны самые лучшие и включены в работу. Благодаря появлению новых технологий каждый из нас может проводить исследования (решения), затрачивая при этом меньше времени и усилий на вычисления, при помощи ЭВМ. В процессе работы были поставлены цели, задачи, которые были достигнуты.

писок литературы

Сидоренко, Е.В. Методы математической обработки в психологии [Текст] / СПб. 2011. - 256 с.

Математическая статистика для психологов Ермолаев О.Ю [Текст] / Москва_2009 -336с

Лекция 7. Аналитическая статистика [Электронный ресурс]. , Дата доступа: 14.05.14

Теория вероятностей и математическая статистика[Текст] / Гмурман В.Е 2010 -479с

Все люди от природы стремятся к знанию. (Аристотель. Метафизика)

Дисперсионный анализ

Вводный обзор

В этом разделе мы рассмотрим основные методы, предположения и терминологию дисперсионного анализа.

Отметим, что в англоязычной литературе дисперсионный анализ обычно называется анализом вариации. Поэтому, для краткости, ниже мы иногда будем использовать термин ANOVA (An alysis o f va riation ) для обычного дисперсионного анализа и термин MANOVA для многомерного дисперсионного анализа. В этом разделе мы последовательно рассмотрим основные идеи дисперсионного анализа (ANOVA ), ковариационного анализа (ANCOVA ), многомерного дисперсионного анализа (MANOVA ) и многомерного ковариационного анализа (MANCOVA ). После краткого обсуждения достоинств анализа контрастов и апостериорных критериев рассмотрим предположения, на которых основаны методы дисперсионного анализа. Ближе к концу этого раздела поясняются преимущества многомерного подхода для анализа повторных измерений по сравнению с традиционным одномерным подходом.

Основные идеи

Цель дисперсионного анализа. Основной целью дисперсионного анализа является исследование значимости различия между средними. Глава (глава 8) содержит краткое введение в исследование статистической значимости. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t - критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t - критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений). Если вы не достаточно знакомы с этими критериями, рекомендуем обратиться к вводному обзору главы (глава 9).

Откуда произошло название Дисперсионный анализ ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними, мы на самом деле анализируем дисперсии.

Разбиение суммы квадратов

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares – Сумма Квадратов). В основе дисперсионного анализа лежит разделение (или разбиение) дисперсии на части. Рассмотрим следующий набор данных:

Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различии между суммами квадратов. В самом деле, если использовать для анализа приведенных данных модуль Дисперсионный анализ , будут получены следующие результаты:

Как видно из таблицы, общая сумма квадратов SS =28 разбита на сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4 ; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений. (28-(2+2)=24; см первую строку таблицы).

SS ошибок и SS эффекта. Внутригрупповая изменчивость (SS ) обычно называется дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или межгрупповую изменчивость) можно объяснить различием между средними значениями в изучаемых группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.

Проверка значимости. Основные идеи проверки статистической значимости обсуждаются в главе Элементарные понятия статистики (глава 8). В этой же главе объясняются причины, по которым многие критерии используют отношение объясненной и необъясненной дисперсии. Примером такого использования является сам дисперсионный анализ. Проверка значимости в дисперсионном анализе основана на сравнении дисперсии, обусловленной межгрупповым разбросом (называемой средним квадратом эффекта или MS эффект ) и дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки или MS ошибка ). Если верна нулевая гипотеза (равенство средних в двух популяциях), то можно ожидать сравнительно небольшое различие в выборочных средних из-за случайной изменчивости. Поэтому при нулевой гипотезе внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета группой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F - критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1. В рассмотренном выше примере F - критерий показывает, что различие между средними статистически значимо.

Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости разницы между средними (для групп или переменных). Эта проверка проводится с помощью анализа дисперсии, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы) называются факторами или независимыми переменными. Более подробно эти понятия описаны в главе Элементарные понятия статистики (глава 8).

Многофакторный дисперсионный анализ

В рассмотренном выше простом примере вы могли бы сразу вычислить t-критерий для независимых выборок, используя соответствующую опцию модуля Основные статистики и таблицы. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа. Однако дисперсионный анализ содержит гибкие и мощные технические средства, которые могут быть использованы для гораздо более сложных исследований.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью t - критерия, заключается в том, что дисперсионный анализ более эффективен и, для малых выборок, более информативен.

Управление факторами. Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол - Gender . Пусть каждая группа состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы 2 на 2:

Эксперимент. Группа 1 Эксперимент. Группа 2
Мужчины 2 6
3 7
1 5
Среднее 2 6
Женщины 4 8
5 9
3 7
Среднее 4 8

До проведения вычислений, можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника:

(1) случайная ошибка (внутригрупповая дисперсия),

(2) изменчивость, связанная с принадлежностью к экспериментальной группе, и

(3) изменчивость, обусловленная полом объектов наблюдения.

(Отметим, что существует еще один возможный источник изменчивости – взаимодействие факторов , который мы обсудим позднее). Что произойдет, если мы не будем включать пол gender как фактор при проведении анализа и вычислим обычный t -критерий? Если мы будем вычислять суммы квадратов, игнорируя пол – gender (т.е., объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии, получив при этом сумму квадратов для каждой группы равную SS =10, и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповой дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу - gender (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8). Это различие связано с тем, что среднее значение для мужчин - males меньше, чем среднее значение для женщин – female , и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия.

На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t -критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями остальных факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t - критерий.

Эффекты взаимодействия

Существует еще одно преимущество применения дисперсионного анализа по сравнению с обычным t - критерием: дисперсионный анализ позволяет обнаружить взаимодействие между факторами и, следовательно, позволяет изучать более сложные модели. Для иллюстрации рассмотрим еще один пример.

Главные эффекты, попарные (двухфакторные) взаимодействия. Предположим, что имеется две группы студентов, причем психологически студенты первой группы настроены на выполнение поставленных задач и более целеустремленны, чем студенты второй группы, состоящей из более ленивых студентов. Разобьем каждую группу случайным образом пополам и предложим одной половине в каждой группе сложное задание, а другой - легкое. После этого измерим, насколько напряженно студенты работают над этими заданиями. Средние значения для этого (вымышленного) исследования показаны в таблице:

Какой вывод можно сделать из этих результатов? Можно ли заключить, что: (1) над сложным заданием студенты трудятся более напряженно; (2) целеустремленные студенты работают упорнее, чем ленивые? Ни одно из этих утверждений не отражает сущность систематического характера средних, приведенных в таблице. Анализируя результаты, правильнее было бы сказать, что над сложными заданиями работают упорнее только целеустремленные студенты, в то время как над легкими заданиями только ленивые работают упорнее. Другими словами характер студентов и сложность задания взаимодействуя между собой влияют на затрачиваемое усилие. Это пример парного взаимодействия между характером студентов и сложностью задания. Отметим, что утверждения 1 и 2 описывают главные эффекты .

Взаимодействия высших порядков. В то время как объяснить попарные взаимодействия еще сравнительно легко, взаимодействия высших порядков объяснить значительно сложнее. Представим себе, что в рассматриваемый выше пример, введен еще один фактор пол -Gender и мы получили следующую таблицу средних значений:

Какие теперь выводы можно сделать из полученных результатов? Графики средних позволяют легко интерпретировать сложные эффекты. Модуль дисперсионного анализа позволяет строить эти графики практически одним щелчком мышки.

Изображение на графиках внизу представляет собой изучаемое трехфакторное взаимодействие.

Глядя на графики, можно сказать, что у женщин существует взаимодействие между характером и сложностью теста: целеустремленные женщины работают над трудным заданием более напряженно, чем над легким. У мужчин это же взаимодействие носит обратный характер. Видно, что описание взаимодействия между факторами становится более запутанным.

Общий способ описания взаимодействий. В общем случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. В рассмотренном выше примере двухфакторное взаимодействие можно описать как изменение главного эффекта фактора, характеризующего сложность задачи, под воздействием фактора, описывающего характер студента. Для взаимодействия трех факторов из предыдущего параграфа можно сказать, что взаимодействие двух факторов (сложности задачи и характера студента) изменяется под воздействием пола Gender . Если изучается взаимодействие четырех факторов, можно сказать, что взаимодействие трех факторов, изменяется под воздействием четвертого фактора, т.е. существуют различные типы взаимодействий на разных уровнях четвертого фактора. Оказалось, что во многих областях взаимодействие пяти или даже большего количества факторов не является чем-то необычным.

Сложные планы

Межгрупповые и внутригрупповые планы (планы с повторными измерениями)

При сравнении двух различных групп обычно используется t - критерий для независимых выборок (из модуля Основные статистики и таблицы ). Когда сравниваются две переменные на одном и том же множестве объектов (наблюдений), используется t -критерий для зависимых выборок. Для дисперсионного анализа также важно зависимы или нет выборки. Если имеются повторные измерения одних и тех же переменных (при разных условиях или в разное время) для одних и тех же объектов , то говорят о наличии фактора повторных измерений (называемого также внутригрупповым фактором, поскольку для оценки его значимости вычисляется внутригрупповая сумма квадратов). Если сравниваются разные группы объектов (например, мужчины и женщины, три штамма бактерий и т.п.), то разница между группами описывается межгрупповым фактором. Способы вычисления критериев значимости для двух описанных типов факторов различны, но общая их логика и интерпретации совпадает.

Меж- и внутригрупповые планы. Во многих случаях эксперимент требует включение в план и межгруппового фактора, и фактора повторных измерений. Например, измеряются математические навыки студентов женского и мужского пола (где пол – Gender -межгрупповой фактор) в начале и в конце семестра. Два измерения навыковкаждого студента образуют внутригрупповой фактор (фактор повторных измерений). Интерпретация главных эффектов и взаимодействий для межгрупповых факторов и факторов повторных измерений совпадает, и оба типа факторов могут, очевидно, взаимодействовать между собой (например, женщины приобретают навыки в течение семестра, а мужчины их теряют).

Неполные (гнездовые) планы

Во многих случаях можно пренебречь эффектом взаимодействия. Это происходит или когда известно, что в популяции эффект взаимодействия отсутствует, или когда осуществление полного факторного плана невозможно. Например, изучается влияние четырех добавок к топливу на расход горючего. Выбираются четыре автомобиля и четыре водителя. Полный факторный эксперимент требует, чтобы каждая комбинация: добавка, водитель, автомобиль - появились хотя бы один раз. Для этого нужно не менее 4 x 4 x 4 = 64 групп испытаний, что требует слишком больших временных затрат. Кроме того, вряд ли существует взаимодействие между водителем и добавкой к топливу. Принимая это во внимание, можно использовать план Латинские квадраты, в котором содержится лишь16 групп испытаний (четыре добавки обозначаются буквами A, B, C и D):

Латинские квадраты описаны в большинстве книг по планированию экспериментов (например, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), и здесь они не будут детально обсуждаться. Отметим, что латинские квадраты это не n олные планы, в которых участвуют не все комбинации уровней факторов. Например, водитель 1 управляет автомобилем 1 только с добавкой А, водитель 3 управляет автомобилем 1 только с добавкой С. Уровни фактора добавок (A, B, C и D) вложены в ячейки таблицы автомобиль x водитель – как яйца в гнезда. Это мнемоническое правило полезно для понимания природы гнездовых или вложенных планов. Модуль Дисперсионный анализ предоставляет простые способы анализ планов такого типа.

Ковариационный анализ

Основная идея

В разделе Основные идеи кратко обсуждалась идея управления факторами и то, каким образом включение аддитивных факторов позволяет уменьшать сумму квадратов ошибок и увеличивать статистическую мощность плана. Все это может быть распространено и на переменные с непрерывным множеством значений. Когда такие непрерывные переменные включаются в план в качестве факторов, они называются ковариатами .

Фиксированные ковариаты

Предположим, что сравниваются математические навыки двух групп студентов, которые обучались по двум различным учебникам. Предположим также, что имеются данные о коэффициенте интеллекта (IQ) для каждого студента. Можно предположить, что коэффициент интеллекта связан с математическими навыками, и использовать эту информацию. Для каждой из двух групп студентов можно вычислить коэффициент корреляции между IQ и математическими навыками. Используя этот коэффициент корреляции, можно выделить долю дисперсии в группах, объясняемую влиянием IQ и необъясняемую долю дисперсии (см. также Элементарные понятия статистики (глава 8) и Основные статистики и таблицы (глава 9)). Оставшаяся доля дисперсии используется при проведении анализа как дисперсия ошибки. Если имеется корреляция между IQ и математическими навыками, то можно существенно уменьшить дисперсии ошибки SS /(n -1) .

Влияние ковариат на F- критерий. F- критерий оценивает статистическую значимость различия средних значений в группах, при этом вычисляется отношение межгрупповой дисперсии (MS effect ) к дисперсии ошибок (MS error ) . Если MS error уменьшается, например, при учете фактора IQ, значение F увеличивается.

Множество ковариат. Рассуждения, использованные выше для одной ковариаты (IQ), легко распространяются на несколько ковариат. Например, кроме IQ, можно включить измерение мотивации, пространственного мышления и т.д. Вместо обычного коэффициента корреляции при этом используется множественный коэффициент корреляции.

Когда значение F -критерия уменьшается. Иногда введение ковариат в план эксперимента уменьшает значение F -критерия. Обычно это указывает на то, что ковариаты коррелированы не только с зависимой переменной (например, математическими навыками), но и с факторами (например, с разными учебниками). Предположим, что IQ измеряется в конце семестра, после почти годового обучения двух групп студентов по двум разным учебникам. Хотя студенты разбивались на группы случайным образом, может оказаться, что различие учебников настолько велико, что и IQ и математические навыки в разных группах будут сильно различаться. В этом случае, ковариаты не только уменьшают дисперсию ошибок, но и межгрупповую дисперсию. Другими словами, после контроля за разностью IQ в разных группах, разность в математических навыках уже будет несущественной. Можно сказать иначе. После “исключения” влияния IQ, неумышленно исключается и влияние учебника на развитие математических навыков.

Скорректированные средние. Когда ковариата влияет на межгрупповой фактор, следует вычислять скорректированные средние , т.е. такие средние, которые получаются после удаления всех оценок ковариат.

Взаимодействие между ковариатами и факторами. Также как исследуется взаимодействие между факторами, можно исследовать взаимодействие между ковариатами и между группами факторов. Предположим, что один из учебников особенно подходит для умных студентов. Второй учебник для умных студентов скушен, а для менее умных студентов этот же учебник труден. В результате имеется положительная корреляция между IQ и результатом обучения в первой группе (более умные студенты, лучше результат) и нулевая или небольшая отрицательная корреляция во второй группе (чем умнее студент, тем менее вероятно приобретение математических навыков из второго учебника). В некоторых исследованиях эта ситуация обсуждается как пример нарушения предположений ковариационного анализа. Однако так как в модуле Дисперсионный анализ используются самые общие способы ковариационного анализа, можно, в частности, оценить статистическую значимость взаимодействия между факторами и ковариатами.

Переменные ковариаты

В то время как фиксированные ковариаты обсуждаются в учебниках достаточно часто, переменные ковариаты упоминаются намного реже. Обычно, при проведении экспериментов с повторными измерениями, нас интересуют различия в измерениях одних и тех же величин в разные моменты времени. А именно, нас интересует значимость этих различий. Если одновременно с измерениями зависимых переменных проводится измерение ковариат, можно вычислить корреляцию между ковариатой и зависимой переменной.

Например, можно изучать интерес к математике и математические навыки в начале и в конце семестра. Интересно было бы проверить, коррелированы ли между собой изменения в интересе к математике с изменением математических навыков.

Модуль Дисперсионный анализ в STATISTICA автоматически оценивает статистическую значимость изменения ковариат в тех планах, где это возможно.

Многомерные планы: многомерный дисперсионный и ковариационный анализ

Межгрупповые планы

Все рассматриваемые ранее примеры включали только одну зависимую переменную. Когда одновременно имеется несколько зависимых переменных, возрастает лишь сложность вычислений, а содержание и основные принципы не меняются.

Например, проводится исследование двух различных учебников. При этом изучаются успехи студентов в изучении физики и математики. В этом случае имеются две зависимые переменные и нужно выяснить, как влияют на них одновременно два разных учебника. Для этого можно воспользоваться многомерным дисперсионным анализом (MANOVA). Вместо одномерного F критерия, используется многомерный F критерий (l-критерий Уилкса), основанный на сравнении ковариационной матрицы ошибок и межгрупповой ковариационной матрицы.

Если зависимые переменные коррелированы между собой, то эта корреляция должна учитываться при вычислении критерия значимости. Очевидно, если одно и то же измерение повторяется дважды, то ничего нового получить при этом нельзя. Если к имеющемуся измерению добавляется коррелированное с ним измерение, то получается некоторая новая информация, но при этом новая переменная содержит избыточную информацию, которая отражается в ковариации между переменными.

Интерпретация результатов. Если общий многомерный критерий значим, можно заключить, что соответствующий эффект (например, тип учебника) значим. Однако встают следующие вопросы. Влияет ли тип учебника на улучшение только математических навыков, только физических навыков, или одновременно на улучшение тех и других навыков. В действительности, после получения значимого многомерного критерия, для отдельного главного эффекта или взаимодействия исследуется одномерный F критерий. Другими словами, отдельно исследуются зависимые переменные, которые вносят вклад в значимость многомерного критерия.

Планы с повторными измерениями

Если измеряются математические и физические навыки студентов в начале семестра и в конце, то это и есть повторные измерения. Изучение критерия значимости в таких планах это логическое развитие одномерного случая. Заметим, что методы многомерного дисперсионного анализа обычно также используются для исследования значимости одномерных факторов повторных измерений, имеющих более чем два уровня. Соответствующие применения будут рассмотрены позднее в этой части.

Суммирование значений переменных и многомерный дисперсионный анализ

Даже опытные пользователи одномерного и многомерного дисперсионного анализа часто приходят в затруднение, получая разные результаты при применении многомерного дисперсионного анализа, например, для трех переменных, и при применении одномерного дисперсионного анализа к сумме этих трех переменных, как к одной переменной.

Идея суммирования переменных состоит в том, что каждая переменная содержит в себе некоторую истинную переменную, которая и исследуется, а также случайную ошибку измерения. Поэтому при усреднении значений переменных, ошибка измерения будет ближе к 0 для всех измерений и усредненное значений будет более надежным. На самом деле, в этом случае применение дисперсионного анализа к сумме переменных разумно и является мощным методом. Однако если зависимые переменные по своей природе многомерны, суммирование значений переменных неуместно.

Например, пусть зависимые переменные состоят из четырех показателей успеха в обществе . Каждый показатель характеризует совершенно независимую сторону человеческой деятельности (например, профессиональный успех, преуспеваемость в бизнесе, семейное благополучие и т.д.). Сложение этих переменных подобно сложению яблока и апельсина. Сумма этих переменных не будет подходящим одномерным показателем. Поэтому с такими данными нужно обходится как с многомерными показателями в многомерном дисперсионном анализе .

Анализ контрастов и апостериорные критерии

Почему сравниваются отдельные множества средних?

Обычно гипотезы относительно экспериментальных данных формулируются не просто в терминах главных эффектов или взаимодействий. Примером может служить такая гипотеза: некоторый учебник повышает математические навыки только у студентов мужского пола, в то время как другой учебник примерно одинаково эффективен для обоих полов, но все же менее эффективен для мужчин. Можно предсказать, что эффективность учебника взаимодействует с полом студента. Однако этот прогноз касается также природы взаимодействия. Ожидается значительное различие между полами для обучающихся по одной книге и практически не зависимые от пола результаты для обучающихся по другой книге. Такой тип гипотез обычно исследуется с помощью анализа контрастов.

Анализ контрастов

Если говорить коротко, то анализ контрастов позволяет оценивать статистическую значимость некоторых линейных комбинаций эффектов сложного плана. Анализ контрастов главный и обязательный элемент любого сложного плана дисперсионного анализа. Модуль Дисперсионный анализ имеет достаточно разнообразные возможности анализа контрастов, которые позволяют выделять и анализировать любые типы сравнений средних.

Апостериорные сравнения

Иногда в результате обработки эксперимента обнаруживается неожиданный эффект. Хотя в большинстве случаев творческий исследователь сможет объяснить любой результат, это не дает возможностей для дальнейшего анализа и получения оценок для прогноза. Эта проблема является одной из тех, для которых используются апостериорные критерии , то есть критерии, не использующие априорные гипотезы. Для иллюстрации рассмотрим следующий эксперимент. Предположим, что на 100 карточках записаны числа от 1 до 10. Опустив все эти карточки в шапку, мы случайным образом выбираем 20 раз по 5 карточек, и вычисляем для каждой выборки среднее значение (среднее чисел, записанных на карточки). Можно ли ожидать, что найдутся две выборки, у которых средние значения значимо отличаются? Это очень правдоподобно! Выбирая две выборки с максимальным и минимальным средним, можно получить разность средних, сильно отличающуюся от разности средних, например, первых двух выборок. Эту разность можно исследовать, например, с помощью анализа контрастов. Если не вдаваться в детали, то существует несколько, так называемых апостериорных критериев, которые основаны в точности на первом сценарии (взятие экстремальных средних из 20 выборок), т. е. эти критерии основаны на выборе наиболее отличающихся средних для сравнения всехсредних значений в плане. Эти критерии применяются для того, чтобы чисто случайно не получить искусственный эффект, например, обнаружить значимое различие между средними, когда его нет. Модуль Дисперсионный анализ предлагает широкий выбор таких критериев. Когда в эксперименте, связанном с несколькими группами, встречаются неожиданные результаты, то используются апостериорные процедуры для исследования статистической значимости полученных результатов.

Сумма квадратов типа I, II, III и IV

Многомерная регрессия и дисперсионный анализ

Существует тесная взаимосвязь между методом многомерной регрессии и дисперсионным анализом (анализом вариаций). И в том и в другом методе исследуется линейная модель. Если говорить коротко, то практически все планы эксперимента можно исследовать с помощью многомерной регрессии. Рассмотрим следующий простой межгрупповой 2 x 2 план.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Столбцы А и В содержат коды, характеризующие уровни факторов А и В, столбец АxВ содержит произведение двух столбцов А и В. Мы можем анализировать эти данные с помощью многомерной регрессии. Переменная DV определяется как зависимая переменная, переменные от A до AxB как независимые переменные. Исследование значимости для коэффициентов регрессии будет совпадать с вычислениями в дисперсионном анализе значимости главных эффектов факторов A и B и эффекта взаимодействия AxB .

Несбалансированные и сбалансированные планы

При вычислении корреляционной матрицы для всех переменных, например, для данных, изображенных выше, можно заметить, что главные эффекты факторов A и B и эффект взаимодействия AxB некоррелированы. Это свойство эффектов называют также ортогональностью. Говорят, что эффекты A и B - ортогональны или независимы друг от друга. Если все эффекты в плане ортогональны друг другу, как в приведенном выше примере, то говорят, что план сбалансирован .

Сбалансированные планы обладают “хорошим свойством”. Вычисления при анализе таких планов очень просты. Все вычисления сводятся к вычислению корреляции между эффектами и зависимыми переменными. Так как эффекты ортогональны, частные корреляции (как в полной многомерной регрессии) не вычисляются. Однако в реальной жизни планы не всегда сбалансированы.

Рассмотрим реальные данные с неравным числом наблюдений в ячейках.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Если закодировать эти данные как выше и вычислить корреляционную матрицу для всех переменных, то окажется, что факторы плана коррелированы друг с другом. Факторы в плане теперь не ортогональны и такие планы называются несбалансированными. Заметим, что в рассматриваемом примере, корреляция между факторами полностью связана с различием частот 1 и -1 в столбцах матрицы данных. Другими словами, планы экспериментов с неравными объемами ячеек (точнее, непропорциональными объемами) будут несбалансированными, это означает, что главные эффекты и взаимодействия будут смешиваться. В этом случае для вычисления статистической значимости эффектов нужно полностью вычислять многомерную регрессию. Здесь имеется несколько стратегий.

Сумма квадратов типа I, II, III и IV

Сумма квадратов типа I и III . Для изучения значимости каждого фактора в многомерной модели можно вычислять частную корреляцию каждого фактора, при условии, что все другие факторы уже учтены в модели. Можно также вводить факторы в модель пошаговым способом, фиксируя все факторы, уже введенные в модель и игнорируя все остальные факторы. Вообще, в этом и состоит различие между типом III и типом I суммы квадратов (эта терминология была введена в SAS, см. например, SAS, 1982; подробное обсуждение можно также найти в Searle, 1987, стр. 461; Woodward, Bonett, and Brecht, 1990, стр. 216; или Milliken and Johnson, 1984, стр. 138).

Сумма квадратов типа II. Следующая “промежуточная” стратегия формирования модели состоит: в контроле всех главных эффектов при исследовании значимости отдельного главного эффекта; в контроле всех главных эффектов и всех попарных взаимодействий, когда исследуется значимость отдельного попарного взаимодействия; в контроле всех главных эффектов всех попарных взаимодействий и всех взаимодействий трех факторов; при исследовании отдельного взаимодействия трех факторов и т.д. Суммы квадратов для эффектов, вычисляемые таким способом, называются типом II суммы квадратов. Итак, тип II суммы квадратов контролирует все эффекты того же порядка и ниже, игнорируя все эффекты более высокого порядка.

Сумма квадратов типа IV . Наконец, для некоторых специальных планов с пропущенными ячейками (неполными планами) можно вычислять, так называемые, типа IV суммы квадратов. Этот метод будет обсуждаться позднее в связи с неполными планами (планами с пропущенными ячейками).

Интерпретация гипотезы о сумме квадратов типа I, II, и III

Сумму квадратов типа III легче всего интерпретировать. Напомним, что суммы квадратов типа III исследуют эффекты после контроля всех других эффектов. Например, после нахождения статистически значимого типа III эффекта для фактора A в модуле Дисперсионный анализ , можно сказать, что существует единственный значимый эффект фактора A , после введения всех других эффектов (факторов) и соответственно интерпретировать этот эффект. Вероятно в 99% всех приложений дисперсионного анализа именно этот тип критерия интересует исследователя. Этот тип суммы квадратов обычно вычисляется в модуле Дисперсионный анализ по умолчанию, независимо от того выбрана опция Регрессионный подход или нет (стандартные подходы принятые в модуле Дисперсионный анализ обсуждаются ниже).

Значимые эффекты, полученные с помощью сумм квадратов типа или типа II суммы квадратов интерпретировать не так легко. Лучше всего их интерпретировать в контексте пошаговой многомерной регрессии. Если при использовании суммы квадратов типа I главный эффект фактора В оказался значим (после включения в модель фактора А, но перед добавлением взаимодействия между А и В), можно заключить, что существует значимый главный эффект фактора В, при условии, что нет взаимодействия между факторами А и В. (Если при использовании критерия типа III , фактор В также оказался значимым, то можно заключить, что существует значимый главный эффект фактора B, после введения в модель всех других факторов и их взаимодействий).

В терминах маргинальных средних гипотезы типа I и типа II обычно не имеют простой интерпретации. В этих случаях говорят, что нельзя интерпретировать значимость эффектов, рассматривая только маргинальные средние. Скорее представленные p значений средних имеют отношение к сложной гипотезе, которая комбинирует средние и объем выборки. Например, тип II гипотезы для фактора А в простом примере плана 2 x 2, рассматриваемом ранее будут (см. Woodward, Bonett, and Brecht, 1990, стр. 219):

nij - число наблюдений в ячейке

uij - среднее значение в ячейке

n . j - маргинальное среднее

Если не вдаваться в детали (более подробно см. Milliken and Johnson, 1984, глава 10), то ясно, что это не простые гипотезы и в большинстве случаев ни одна из них не представляет особенного интереса у исследователя. Однако существуют случаи, когда гипотезы типа I могут быть интересны.

Принимаемый по умолчанию вычислительный подход в модуле Дисперсионный анализ

По умолчанию, если не отмечена опция Регрессионный подход , модуль Дисперсионный анализ использует модель средних по ячейкам . Для этой модели характерно, что суммы квадратов для разных эффектов вычисляются для линейных комбинаций средних значений по ячейкам. В полном факторном эксперименте это приводит к суммам квадратов, которые совпадают с суммами квадратов, обсуждаемыми ранее как тип III . Однако в опции Спланированные сравнения (в окне Результаты дисперсионного анализа ), пользователь может проверять гипотезу относительно любой линейной комбинации взвешенных или невзвешенных средних по ячейкам. Таким образом, пользователь может проверять не только гипотезы типа III , но гипотезы любого типа (включая тип IV ). Этот общий подход особенно полезен, когда исследуются планы с пропущенными ячейками (так называемые неполные планы).

Для полных факторных планов этот подход полезно также использовать в тех случаях, когда хотят анализировать взвешенные маргинальные средние. Например, предположим, что в рассматриваемом ранее простом 2 x 2 плане, нужно сравнить взвешенные (по уровням фактора B ) маргинальные средние для фактора А. Это бывает полезным, когда распределение наблюдений по ячейкам не готовилось экспериментатором, а строилось случайно, и эта случайность отражается в распределении числа наблюдений по уровням фактора B в совокупности.

Например, имеется фактор - возраст вдов. Возможная выборка респондентов разбита на две группы: моложе 40 лет и старше 40 (фактор В). Второй фактор (фактор А) в плане - получали или нет социальную поддержку вдовы в некотором агентстве (при этом одни вдовы были выбраны случайно, другие служили в качестве контроля). В этом случае распределение вдов по возрастам в выборке отражает действительное распределение вдов по возрастам в совокупности. Оценке эффективности группы социальной поддержки вдов по всем возрастам будет соответствовать взвешенное среднее для двух возрастных групп (с весами соответствующими числу наблюдений в группе).

Спланированные сравнения

Заметим, что сумма введенных коэффициентов контрастов не обязательно равна 0 (нулю). Вместо этого программа будет автоматически вносить поправки, чтобы соответствующие гипотезы не смешивались с общим средним.

Для иллюстрации этого вернемся опять к простому 2 x 2 плану, рассмотренному ранее. Напомним, что числа наблюдений в ячейках этого несбалансированного плана -1, 2, 3, и 1. Предположим, что мы хотим сравнить взвешенные маргинальные средние для фактора А (взвешенные с частотой уровней фактора В). Можно ввести коэффициенты контраста:

Заметим, что эти коэффициенты не дают в сумме 0. Программа будет устанавливать коэффициенты так, что в сумме они будут давать 0, и при этом будут сохраняться их относительные значения, т. е.:

1/3 2/3 -3/4 -1/4

Эти контрасты будут сравнивать взвешенные средние для фактора А.

Гипотезы о главном среднем. Гипотеза, о том, что не взвешенное главное среднее равно 0 может исследоваться с помощью коэффициентов:

Гипотеза о том, что взвешенное главное среднее равно 0 проверяется с помощью:

Ни в одном случае программа не производит корректировки коэффициентов контрастов.

Анализ планов с пропущенными ячейками (неполные планы)

Факторные планы, содержащие пустые ячейки (обработка комбинаций ячеек, в которых нет наблюдений) называются неполными. В таких планах некоторые факторы обычно не ортогональны и некоторые взаимодействия не могут быть вычислены. Вообще не существует лучшего метода анализа таких планов.

Регрессионный подход

В некоторых старых программах, которые основаны на анализе планов дисперсионного анализа с помощью многомерной регрессии, факторы в неполных планах по умолчанию задаются обычным образом (как будто план полный). Затем производится многомерный регрессионный анализ для этих фиктивно закодированных факторов. К несчастью, этот метод приводит к результатам, которые очень трудно, или даже невозможно, интерпретировать, так как неясно, как каждый эффект участвует в линейной комбинации средних значений. Рассмотрим следующий простой пример.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропущено

Если будет выполняться многомерная регрессия вида Зависимая переменная = Константа + Фактор A + Фактор B , то гипотеза о значимости факторов A и B в терминах линейных комбинаций средних выглядит так:

Фактор A: Ячейка A1,B1 = Ячейка A2,B1

Фактор B: Ячейка A1,B1 = Ячейка A1,B2

Этот случай прост. В более сложных планах невозможно фактически определить, что точно будет исследоваться.

Средние ячеек, подход дисперсионного анализа, гипотезы типа IV

Подход, который рекомендуется в литературе и который кажется предпочтительнее - исследование осмысленных (с точки зрения исследовательских задач) априорных гипотез о средних, наблюдаемых в ячейках плана. Подробное обсуждение этого подхода можно найти в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987), или Woodward, Bonett, and Brecht (1990). Суммы квадратов, ассоциированные с гипотезами о линейной комбинации средних в неполных планах, исследующие оценки части эффектов, называются также суммами квадратов IV .

Автоматическая генерация гипотез типа IV . Когда многофакторные планы имеют сложный характер пропущенных ячеек, желательно определить ортогональные (независимые) гипотезы, исследование которых эквивалентно исследованию главных эффектов или взаимодействий. Были развиты алгоритмические (вычислительные) стратегии (основанные на псевдообратной матрице плана) для генерирования подходящих весов для таких сравнений. К сожалению, окончательные гипотезы определяются не единственным образом. Конечно, они зависят от порядка, в котором эффекты были определены и редко допускают простую интерпретацию. Поэтому рекомендуется внимательно изучить характер пропущенных ячеек, затем формулировать гипотезы типа IV , которые наиболее содержательно соответствуют целям исследования. Затем исследовать эти гипотезы, используя опцию Спланированные сравнения в окне Результаты . Самый легкий путь задать сравнения в этом случае - требовать введения вектора контрастов для всех факторов вместе в окне Спланированные сравнения. После вызова диалогового окна Спланированные сравнения будут показаны все группы текущего плана и помечены те, которые пропущены.

Пропущенные ячейки и проверка специфического эффекта

Существует несколько типов планов, в которых расположение пропущенных ячеек не случайно, но тщательно спланировано, что позволяет проводить простой анализ главных эффектов не затрагивая другие эффекты. Например, когда необходимое число ячеек в плане недоступно, часто используются планы Латинские квадраты для оценивания главных эффектов нескольких факторов с большим числом уровней. Например, 4 x 4 x 4 x 4 факторный план требует 256 ячеек. В то же время можно использовать Греко-латинский квадрат для оценки главных эффектов, имея только 16 ячеек в плане (глава Планирование эксперимента , том IV, содержит детальное описание таких планов). Неполные планы, в которых главные эффекты (и некоторые взаимодействия) могут быть оценены с помощью простых линейных комбинаций средних, называются сбалансированными неполными планами .

В сбалансированных планах стандартный (по умолчанию) метод генерирования контрастов (весов) для главных эффектов и взаимодействий будет затем производить анализ таблицы дисперсий, в которой суммы квадратов для соответствующих эффектов не смешиваются друг с другом. Опция Специфический эффекты окна Результаты будет генерировать пропущенные контрасты, записывая ноль в пропущенные ячейки плана. Сразу после того, как будет запрошена опция Специфический эффекты для пользователя, изучающего некоторую гипотезу, появляется таблица результатов с фактическими весами. Заметим, что в сбалансированном плане, суммы квадратов соответствующих эффектов вычисляются только, если эти эффекты ортогональны (независимы) всем другим главным эффектам и взаимодействиям. В противном случае нужно воспользоваться опцией Спланированные сравнения для изучения содержательных сравнений между средними.

Пропущенные ячейки и объединенные эффекты/члены ошибки

Если опция Регрессионное подход в стартовой панели модуля Дисперсионный анализ не выбрана, то при вычислении суммы квадратов для эффектов будет использоваться модель средних по ячейкам (установка по умолчанию). Если план не сбалансирован, то при объединении неортогональных эффектов (см. выше обсуждение опции Пропущенные ячейки и специфический эффект ) можно получить сумму квадратов, состоящую из неортогональных (или перекрывающихся) компонент. Полученные при этом результаты, обычно не интерпретируемы. Поэтому нужно быть очень осторожным при выборе и реализации сложных неполных экспериментальных планов.

Существует много книг с детальным обсуждением планов разного типа. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), но такого рода информация лежит вне границ этого учебника. Тем не менее, позднее в этом разделе будет продемонстрирован анализ различного типа планов.

Предположения и эффекты нарушения предположений

Отклонение от предположения о нормальности распределений

Предположим, что зависимая переменная измерена в числовой шкале. Предположим также, что зависимая переменная имеет нормальное распределение внутри каждой группы. Дисперсионный анализ содержит широкий набор графиков и статистик для обоснования этого предположения.

Эффекты нарушения. Вообще F критерий очень устойчив к отклонению от нормальности (подробные результаты см. в работе Lindman, 1974). Если эксцесс больше 0, то значение статистики F может стать очень маленьким. Нулевая гипотеза при этом принимается, хотя она может быть и не верна. Ситуация меняется на противоположную, когда эксцесс меньше 0. Асимметрия распределения обычно незначительно влияет на F статистику. Если число наблюдений в ячейке достаточно большое, то отклонение от нормальности не имеет особого значения в силу центральной предельной теоремы , в соответствии с которой, распределение среднего значения близко к нормальному, независимо от начального распределения. Подробное обсуждение устойчивости F статистики можно найти в Box and Anderson (1955), или Lindman (1974).

Однородность дисперсии

Предположения. Предполагается, что дисперсии разных групп плана одинаковы. Это предположение называется предположением об однородности дисперсии. Вспомним, что в начале этого раздела, описывая вычисление суммы квадратов ошибок, мы производили суммирование внутри каждой группы. Если дисперсии в двух группах отличаются друг от друга, то сложение их не очень естественно и не дает оценки общей внутригрупповой дисперсии (так как в этом случае общей дисперсии вообще не существует). Модуль Дисперсионный анализ - ANOVA /MANOVA содержит большой набор статистических критериев обнаружения отклонения от предположений однородности дисперсии.

Эффекты нарушения. Линдман (Lindman 1974, стр. 33) показывает, что F критерий вполне устойчив относительно нарушения предположений однородности дисперсии (неоднородность дисперсии, см. также Box, 1954a, 1954b; Hsu, 1938).

Специальный случай: коррелированность средних и дисперсий. Бывают случаи, когда F статистика может вводить в заблуждение. Это бывает, когда в ячейках плана средние значения коррелированы с дисперсией. Модуль Дисперсионный анализ позволяет строить диаграммы рассеяния дисперсии или стандартного отклонения относительно средних для обнаружения такой корреляции. Причина, по которой такая корреляция опасна, состоит в следующем. Представим себе, что имеется 8 ячеек в плане, 7 из которых имеют почти одинаковое среднее, а в одной ячейке среднее намного больше остальных. Тогда F критерий может обнаружить статистически значимый эффект. Но предположим, что в ячейке с большим средним значением и дисперсия значительно больше остальных, т.е. среднее значение и дисперсия в ячейках зависимы (чем больше среднее, тем больше дисперсия). В этом случае большое среднее значение ненадежно, так как оно может быть вызвано большой дисперсией данных. Однако F статистика, основанная на объединенной дисперсии внутри ячеек, будет фиксировать большое среднее, хотя критерии, основанные на дисперсии в каждой ячейке, не все различия в средних будут считать значимыми.

Такой характер данных (большое среднее и большая дисперсия) - часто встречается, когда имеются резко выделяющиеся наблюдения. Одно или два резко выделяющихся наблюдений сильно смещают среднее значение и очень увеличивают дисперсию.

Однородность дисперсии и ковариаций

Предположения. В многомерных планах, с многомерными зависимыми измерениями, также применяются предположение об однородности дисперсии, описанные ранее. Однако так как существуют многомерные зависимые переменные, то требуется так же чтобы их взаимные корреляции (ковариации) были однородны по всем ячейкам плана. Модуль Дисперсионный анализ предлагает разные способы проверки этих предположений.

Эффекты нарушения . Многомерный аналог F - критерия - λ-критерий Уилкса. Не так много известно об устойчивости (робастности) λ-критерия Уилкса относительно нарушения указанных выше предположений. Тем не менее, так как интерпретация результатов модуля Дисперсионный анализ основывается обычно на значимости одномерных эффектов (после установления значимости общего критерия), обсуждение робастности касается, в основном, одномерного дисперсионного анализа. Поэтому должна быть внимательно исследована значимость одномерных эффектов.

Специальный случай: ковариационный анализ. Особенно серьезные нарушения однородности дисперсии/ковариаций могут происходить, когда в план включаются ковариаты. В частности, если корреляция между ковариатами и зависимыми измерениями различна в разных ячейках плана, может последовать неверное истолкование результатов. Следует помнить, что в ковариационном анализе, в сущности, проводится регрессионный анализ внутри каждой ячейки для того, чтобы выделить ту часть дисперсии, которая соответствует ковариате. Предположение об однородности дисперсии/ковариации предполагает, что этот регрессионный анализ проводится при следующем ограничении: все регрессионные уравнения (наклоны) для всех ячеек одинаковы. Если это не предполагается, то могут появиться большие ошибки. Модуль Дисперсионный анализ имеет несколько специальных критериев для проверки этого предположения. Можно посоветовать использовать эти критерии, для того, чтобы убедиться, что регрессионные уравнения для различных ячеек примерно одинаковы.

Сферичность и сложная симметрия: причины использования многомерного подхода к повторным измерениям в дисперсионном анализе

В планах, содержащих факторы повторных измерений с более чем двумя уровнями, применение одномерного дисперсионного анализа требует дополнительных предположений: предположения о сложной симметрии и предположения о сферичности. Эти предположения редко выполняются (см. ниже). Поэтому в последние годы многомерный дисперсионный анализ завоевал популярность в таких планах (оба подхода совмещены в модуле Дисперсионный анализ ).

Предположение о сложной симметрии Предположение о сложной симметрии состоит в том, что дисперсии (общие внутригрупповые) и ковариации (по группам) для различных повторных измерений однородны (одинаковы). Это достаточное условие для того, чтобы одномерный F критерий для повторных измерений был обоснованным (т.е. выданные F-значения в среднем соответствовали F-распределению). Однако в данном случае это условие не является необходимым.

Предположение о сферичности. Предположение о сферичности является необходимым и достаточным условием того, чтобы F-критерий был обоснованным. Оно состоит в том, что внутри групп все наблюдения независимы и одинаково распределены. Природа этих предположений, а также влияние их нарушений обычно не очень хорошо описаны в книгах по дисперсионному анализу - эта будет описано в следующих параграфах. Там же будет показано, что результаты одномерного подхода могут отличаться от результатов многомерного подхода, и будет объяснено, что это означает.

Необходимость независимости гипотез. Общий способ анализа данных в дисперсионном анализе – это подгонка модели . Если относительно модели, соответствующей данным, имеются некоторые априорные гипотезы, то дисперсия разбивается для проверки этих гипотез (критерии главных эффектов, взаимодействий). С точки зрения вычислений, этот подход генерирует некоторое множество контрастов (множество сравнений средних в плане). Однако если контрасты не независимы друг от друга, разбиение дисперсий становится бессодержательным. Например, если два контраста A и B тождественны и выделяется соответствующая им часть из дисперсии, то одна и та же часть выделяется дважды. Например, глупо и бессмысленно выделять две гипотезы: “среднее в ячейке 1 выше среднего в ячейке 2” и “среднее в ячейке 1 выше среднего в ячейке 2”. Итак, гипотезы должны быть независимы или ортогональны.

Независимые гипотезы при повторных измерениях. Общий алгоритм, реализованный в модуле Дисперсионный анализ , будет пытаться для каждого эффекта генерировать независимые (ортогональные) контрасты. Для фактора повторных измерений эти контрасты задают множество гипотез относительно разностей между уровнями рассматриваемого фактора. Однако если эти разности коррелированы внутри групп, то результирующие контрасты не являются больше независимыми. Например, в обучении, где обучающиеся измеряются три раза за один семестр, может случиться, что изменения между 1 и 2 измерением отрицательно коррелируют с изменением между 2 и 3 измерениями субъектов. Те, кто большую часть материала освоил между 1 и 2 измерениями, осваивают меньшую часть в течение того времени, которое прошло между 2 и 3 измерением. В действительности, для большинства случаев, где дисперсионный анализ используются при повторных измерениях, можно предположить, что изменения по уровням коррелированы по субъектам. Однако когда это случается, предположение о сложной симметрии и предположения о сферичности не выполняются и независимые контрасты не могут быть вычислены.

Влияние нарушений и способы их исправления. Когда предположения о сложной симметрии или о сферичности не выполняются, дисперсионный анализ может выдать ошибочные результаты. До того, как были достаточно разработаны многомерные процедуры, было предложено несколько предположений для компенсации нарушений этих предположений. (см., например, работы Greenhouse & Geisser, 1959 и Huynh & Feldt, 1970). Эти методы до сих пор широко используются (поэтому они представлены в модуле Дисперсионный анализ ).

Подход многомерного дисперсионного анализа к повторным измерениям. В целом проблемы сложной симметрии и сферичности относятся к тому факту, что множества контрастов, включенных в исследование эффектов факторов повторных измерений (с числом уровней большим, чем 2) не независимы друг от друга. Однако им не обязательно быть независимыми, если используется многомерный критерий для одновременной проверки статистического значимости двух или более контрастов фактора повторных измерений. Это является причиной того, что методы многомерного дисперсионного анализа стали чаще использоваться для проверки значимости факторов одномерных повторных измерений с более чем 2 уровнями. Этот подход широко распространен, так как он, в общем случае, не требует предположения о сложной симметрии и предположения о сферичности.

Случаи, в которых подходмногомерного дисперсионного анализа не может быть использован. Существуют примеры (планы), когда подход многомерного дисперсионного анализа не может быть применен. Обычно это случаи, когда имеется небольшое количество субъектов в плане и много уровней в факторе повторных измерений. Тогда для проведения многомерного анализа может быть слишком мало наблюдений. Например, если имеется 12 субъектов, p = 4 фактора повторных измерений, и каждый фактор имеет k = 3 уровней. Тогда взаимодействие 4-х факторов будет “расходовать”(k -1)P = 2 4 = 16 степеней свободы. Однако имеется лишь 12 субъектов, следовательно, в этом примере многомерный тест не может быть проведен. Модуль Дисперсионный анализ самостоятельно обнаружит эти наблюдения и вычислит только одномерные критерии.

Различия в одномерных и многомерных результатах. Если исследование включает большое количество повторных измерений, могут возникнуть случаи, когда одномерный подход дисперсионного анализа к повторным измерениям дает результаты, сильно отличающиеся от тех, которые были получены при многомерном подходе. Это означает, что разности между уровнями соответствующих повторных измерений коррелированы по субъектам. Иногда этот факт представляет некоторый самостоятельный интерес.

Многомерный дисперсионный анализ и структурное моделирование уравнений

В последние годы моделирование структурных уравнений стало популярным, как альтернатива многомерному анализу дисперсии (см. например, Bagozzi and Yi, 1989; Bagozzi, Yi, and Singh, 1991; Cole, Maxwell, Arvey, and Salas, 1993). Этот подход позволяет проверять гипотезы не только о средних в разных группах, но так же и о корреляционных матрицах зависимых переменных. Например, можно ослабить предположения об однородности дисперсии и ковариаций и явно включить в модель для каждой группы дисперсии и ковариации ошибки. Модуль STATISTICA Моделирование структурными уравнениями (SEPATH ) (см. том III) позволяет проводить такой анализ.

Задание . Студентов 1-го курса опрашивали с целью выявления занятий, которым они посвящают свое свободное время. Проверьте, различаются ли распределение вербальных и невербальных предпочтений студентов.

Решение проводим с использованием калькулятора .
Находим групповые средние:

N П 1 П 2
1 12 17
2 18 19
3 23 25
4 10 7
5 15 17
x ср 15.6 17

Обозначим р - количество уровней фактора (р=2). Число измерений на каждом уровне одинаково и равно q=5.
В последней строке помещены групповые средние для каждого уровня фактора.
Общую среднюю можно получить как среднее арифметическое групповых средних:
(1)
На разброс групповых средних процента отказа относительно общей средней влияют как изменения уровня рассматриваемого фактора, так и случайные факторы.
Для того чтобы учесть влияние данного фактора, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной S 2 ф, а вторая - остаточной S 2 ост.
С целью учета этих составляющих вначале рассчитывается общая сумма квадратов отклонений вариант от общей средней:

и факторная сумма квадратов отклонений групповых средних от общей средней, которая и характеризует влияние данного фактора:

Последнее выражение получено путем замены каждой варианты в выражении R общ групповой средней для данного фактора.
Остаточная сумма квадратов отклонений получается как разность:
R ост = R общ - R ф
Для определения общей выборочной дисперсии необходимо R общ разделить на число измерений pq:

а для получения несмещенной общей выборочной дисперсии это выражение нужно умножить на pq/(pq-1):

Соответственно, для несмещенной факторной выборочной дисперсии:

где p-1 - число степеней свободы несмещенной факторной выборочной дисперсии.
С целью оценки влияния фактора на изменения рассматриваемого параметра рассчитывается величина:

Так как отношение двух выборочных дисперсий S 2 ф и S 2 ост распределено по закону Фишера-Снедекора, то полученное значение f набл сравнивают со значением функции распределения

в критической точке f кр, соответствующей выбранному уровню значимости a.
Если f набл >f кр, то фактор оказывает существенное воздействие и его следует учитывать, в противном случае он оказывает незначительное влияние, которым можно пренебречь.
Для расчета R набл и R ф могут быть использованы также формулы:
(4)
(5)
Находим общую среднюю по формуле (1):
Для расчета Rобщ по формуле (4) составляем таблицу 2 квадратов вариант:
N П 2 1 П 2 2
1 144 289
2 324 361
3 529 625
4 100 49
5 225 289
1322 1613

Общая средняя вычисляется по формуле (1):

R общ = 1322 + 1613 - 5 2 16.3 2 = 278.1
Находим R ф по формуле (5):
R ф = 5(15.6 2 + 17 2) - 2 16.3 2 = 4.9
Получаем R ост: R ост = R общ - R ф = 278.1 - 4.9 = 273.2
Определяем факторную и остаточную дисперсии :


Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии меньше оценки остаточной дисперсии, поэтому можно сразу утверждать справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф не оказывает существенного влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 1 и 8 находим f кр из таблицы распределения Фишера-Снедекора .
f кр (0.05; 1; 8) = 5.32
В связи с тем, что f набл < f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов отклоняем.
Другим словами, распределение вербальных и невербальных предпочтений студентов различаются.

Задание . На заводе установлено четыре линии по выпуску облицовочной плитки. С каждой линии случайным образом в течение смены отобрано по 10 плиток и сделаны замеры их толщины (мм). Отклонения от номинального размера приведены в таблице. Требуется на уровне значимости a = 0,05 установить наличие зависимости выпуска качественных плиток от линии выпуска (фактор A).

Задание . На уровне значимости a = 0,05 исследовать влияние цвета краски на срок службы покрытия.

Пример №1 . Произведено 13 испытаний, из них – 4 на первом уровне фактора, 4 – на втором, 3 – на третьем и 2 на четвертом. Методом дисперсионного анализа при уровне значимости 0,05 проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний приведены в таблице.

Решение :
Находим групповые средние:

N П 1 П 2 П 3 П 4
1 1.38 1.41 1.32 1.31
2 1.38 1.42 1.33 1.33
3 1.42 1.44 1.34 -
4 1.42 1.45 - -
5.6 5.72 3.99 2.64
x ср 1.4 1.43 1.33 1.32

Обозначим р - количество уровней фактора (р=4). Число измерений на каждом уровне равно: 4,4,3,2
В последней строке помещены групповые средние для каждого уровня фактора.
Общая средняя вычисляется по формуле:

Для расчета Sобщ по формуле (4) составляем таблицу 2 квадратов вариант:

N П 2 1 П 2 2 П 2 3 П 2 4
1 1.9 1.99 1.74 1.72
2 1.9 2.02 1.77 1.77
3 2.02 2.07 1.8 -
4 2.02 2.1 - -
7.84 8.18 5.31 3.49

Общую сумму квадратов отклонений находят по формуле:


Находим S ф по формуле:


Получаем S ост: S ост = S общ - S ф = 0.0293 - 0.0263 = 0.003
Определяем факторную дисперсию:

и остаточную дисперсию:

Если средние значения случайной величины, вычисленные по отдельным выборкам одинаковы, то оценки факторной и остаточной дисперсий являются несмещенными оценками генеральной дисперсии и различаются несущественно.
Тогда сопоставление оценок этих дисперсий по критерию Фишера должно показать, что нулевую гипотезу о равенстве факторной и остаточной дисперсий отвергнуть нет оснований.
Оценка факторной дисперсии больше оценки остаточной дисперсии, поэтому можно сразу утверждать не справедливость нулевой гипотезы о равенстве математических ожиданий по слоям выборки.
Иначе говоря, в данном примере фактор Ф оказывает существенное влияния на случайную величину.
Проверим нулевую гипотезу H 0: равенство средних значений х.
Находим f набл

Для уровня значимости α=0.05, чисел степеней свободы 3 и 12 находим f кр из таблицы распределения Фишера-Снедекора.
f кр (0.05; 3; 12) = 3.49
В связи с тем, что f набл > f кр, нулевую гипотезу о существенном влиянии фактора на результаты экспериментов принимаем (нулевую гипотезу о равенстве групповых средних отвергаем). Другими словами, групповые средние в целом различаются значимо.

Пример №2 . В школе 5 шестых классов. Психологу ставится задача, определить, одинаковый ли средний уровень ситуативной тревожности в классах. Для этого были приведены в таблице. Проверить уровень значимости α=0.05 предположение, что средняя ситуативная тревожность в классах не различается.

Пример №3 . Для изучения величины X произведено 4 испытания на каждом из пяти уровней фактора F. Результаты испытаний приведены в таблице. Выяснить, существенно ли влияние фактора F на величину X. Принять α = 0.05. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями.

Пример №4 . Предположим, что в педагогическом эксперименте участвовали три группы студентов по 10 человек в каждой. В группах применили различные методы обучения: в первой - традиционный (F 1), во второй - основанный на компьютерных технологиях (F 2), в третьей - метод, широко использующий задания для самостоятельной работы (F 3). Знания оценивались по десятибалльной системе.
Требуется обработать полученные данные об экзаменах и сделать заключение о том, значимо ли влияние метода преподавания, приняв за уровень значимости α=0.05.
Результаты экзаменов заданы таблицей, F j - уровень фактора x ij - оценка i-го учащегося обучающегося по методике F j .

Уровень фактора

Пример №5 . Показаны результаты конкурсного сортоиспытания культур (урожайность в ц.с га). Каждый сорт испытывался на четырех участках. Методом дисперсионного анализа изучите влияние сорта на урожайность. Установите существенность влияния фактора (долю межгрупповой вариации в общей вариации) и значимость результатов опыта при уровне значимости 0,05.
Урожайность на сортоиспытательных участках

Сорт Урожайность по повторностям ц. с га
1 2 3 4
1
2
3
42,4
52,5
52,3
37,4
50,1
53,0
40,7
53,8
51,4
38,2
50,7
53,6


Понравилась статья? Поделиться с друзьями: