Гетероскедастичность случайных остатков. Методы обнаружения гетероскедастичности

Означающее неоднородность наблюдений, выражающуюся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна понятию гомоскедастичность , которое означает однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Наличие гетероскедастичности случайных ошибок приводит к неэффективности оценок , полученных с помощью метода наименьших квадратов . Кроме того, в этом случае оказывается смещённой и несостоятельной классическая оценка ковариационной матрицы МНК-оценок параметров. Следовательно статистические выводы о качестве полученных оценок могут быть неадекватными. В связи с этим тестирование моделей на гетероскедастичность является одной из необходимых процедур при построении регрессионных моделей.

Тестирование гетероскедастичности

В первом приближении наличие гетероскедастичности можно заметить на графиках остатков регрессии (или их квадратов) по некоторым переменным, по оцененной зависимой переменной или по номеру наблюдения. На этих графиках разброс точек может меняться в зависимости от значения этих переменных.

Для более строгой проверки применяют, например, следующие статистические тесты

Тест Голдфелда-Куандта
Тест Бройша - Пагана
Тест Парка
Тест Глейзера
Тест ранговой корреляции Спирмэна

Оценка модели при гетероскедастичности

Поскольку МНК-оценки параметров моделей остаются несмещёнными состоятельными даже при гетероскедастичности, то при достаточном количестве наблюдений возможно применение обычного МНК. Однако, для более точных и правильных статистических выводов необходимо использовать стандартные ошибки в форме Уайта .

Альтернативный подход - использование взвешенного метода наименьших квадратов (ВМНК, WLS) . В этом методе каждое наблюдение взвешивается обратно пропорционально предполагаемому стандартному отклонению случайной ошибки в этом наблюдении. Такой подход позволяет сделать случайные ошибки модели гомоскедастичными.

В частности, если предполагается, что стандартное отклонение ошибок пропорционально некоторой переменной Z , то данные делятся на эту переменную, включая константу.

Пример

Пусть рассматривается, например, зависимость прибыли от размера активов:

Однако, скорее всего не только прибыль зависит от активов, но и "колеблемость" прибыли не одинакова для той или иной величины активов. То есть скорее всего стандартное отклонение случайной ошибки модели следует полагать пропорциональным стоимости активов:

В этом случае разумнее рассматривать не исходную модель, а следующую:

предполагая что в этой модели случайные ошибки гомоскедастичны. Можно использовать эту преобразованную модель непосредственно, а можно использовать полученные оценки параметров как оценки параметров исходной модели (взвешенный МНК). Теоретически полученные таким образом оценки должны быть лучше.

См. также

Литература

Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. - М .: Дело, 2004. - 576 с.
William H. Greene Econometric analysis. - New York: Pearson Education, Inc., 2003. - 1026 с.

Wikimedia Foundation . 2010 .

Смотреть что такое "Гетероскедастичность" в других словарях:

- (heteroscedasticity) Разнородность; наличие различных дисперсий. Данные являются гетероскедастическими, если их вариации не соответствуют случайным отклонениям по той же совокупности. Это понятие отличается от гомоскедастичности… … Экономический словарь

Гетероскедастичность - , неоднородность понятие математической статистики и эконометрии; означает случай, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной… … Экономико-математический словарь

гетероскедастичность - Неоднородность понятие математической статистики и эконометрии; означает случай, когда дисперсия ошибки в уравнении регрессии изменяется от наблюдения к наблюдению. В этом случае приходится подвергать определенной модификации метод наименьших… … Справочник технического переводчика

гетероскедастичность - Неоднородность дисперсии. Антоним: гомоскедастичность … Словарь социологической статистики

- (ARCH AutoRegressive Conditional Heteroskedastiсity) применяемая в эконометрике модель для анализа временных рядов (в первую очередь финансовых) у которых условная (по прошлым значениям ряда) дисперсия ряда зависит от прошлых значений … Википедия

Куандта (англ. Goldfeld Quandt test) процедура тестирования гетероскедастичности случайных ошибок регрессионной модели, применяемая в случае, когда есть основания полагать, что стандартное отклонение ошибок может быть пропорционально… … Википедия

- (англ. White test) универсальная процедура тестирования гетероскедастичности случайных ошибок линейной регрессионной модели, не налагающая особых ограничений на структуру гетероскедастичности, предложенная Уайтом в 1980 г. Тест является… … Википедия

При проведении регрессионного анализа методом наименьших квадратов (МНК) важно учитывать предпосылки этого метода, одной из которых является равенство дисперсий случайных отклонений. Выполнение данной предпосылки называется гомоскедастичностью,… … Википедия

Применяемая в эконометрике модель для отыскания зависимости дисперсии текущей ошибки от квадратов ошибок модели для предшествующих наблюдений. Спецификация ARCH(q) Обозначим через текущую ошибку модели и предположим, что, где и где временной ряд … Википедия

- (ОМНК, GLS англ. Generalized Least Squares) метод оценки параметров регрессионных моделей, являющийся обобщением классического метода наименьших квадратов. Обобщённый метод наименьших квадратов сводится к минимизации «обобщённой… … Википедия

Книги

Введение в эконометрику (CDpc) , Яновский Леонид Петрович, Буховец Алексей Георгиевич. Даны основы эконометрики и статистического анализа одномерных временных рядов. Большое внимание уделено классической парной и множественной регрессии, классическому и обобщенному методам…

Лекция 5. Гетероскедастичность и автокорреляция регрессионных остатков

Литература:

Эконометрика: учебник / И.И. Елисеева, С.В. Курышева, Т.В. Костеева и др.; под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006.

Бородич С.А. Эконометрика: учебное пособие. – Минск: ООО «Новое знание», 2005 – 408с.

Еремеева Н.С., Лебедева Т.В. Эконометрика: учебн. Пособие для вузов. – Оренбург: ОАО «ИПК «Южный Урал», 2010. – 296 с.

Кремер Н.Ш. Эконометрика: учебник (Н.Ш. Кремер, Б.А. Путко). – М.: ЮНИТИ-ДАНА, 2006 – 311с.

1. Гетероскедастичность. Тесты на гетероскедастичность

2. Автокорреляция регрессионных остатков. Методы выявления

3. Обобщенный метод наименьших квадратов для смягчения гетероскедастичности и устранения автокорреляции

Для получения качественных оценок параметров уравнения регрессии необходимо следить за выполнимостью предпосылок МНК. Применяя МНК мы предполагаем, что остатки ε i подчиняются условиям Гаусса-Маркова, данное предположение необходимо проверить, после построения уравнения регрессии.

1. Гетероскедастичность. Тесты на гетероскедастичность

Допущение о постоянстве дисперсии остатков известно какдопущение о гомоскедастичности. Если это допущение нарушено и дисперсия остатков не является постоянной, то говорят, что оценки гетероскедастичны.

На практике, для каждого i-го наблюдения определяется единственное значение ε i , но мы говорим об определении дисперсии остатков, т.е. о множестве ε i для каждого i-го наблюдения. Это объясняется тем, что мы имеем дело с выборочной совокупностью, а априори ε i могли принимать любые значения на основе некоторых вероятностных распределений.

Гетероскедастичность приводит к тому, что коэффициенты регрессии не являются оценками с минимальной дисперсией, следовательно, они больше не являются наиболее эффективными коэффициентами. Вследствие, выводы, получаемые на основе t и F-статистик, а также интервальные оценки будут ненадежными. Дисперсии и, следовательно, стандартные ошибки этих коэффициентов будут смещенными. Если смещение отрицательно, то оценочные стандартные ошибки будут меньше, чем они должны быть, а критерий проверки - больше чем в реальности. Таким образом, можно сделать вывод, что коэффициент значим, когда он таковым не является. И наоборот если смещение положительно, то оценочные ошибки будут больше чем они должны быть, а критерии проверки - меньше. Значит, возможно ошибочное принятие нулевой гипотезы.

Обнаружение гетероскедастичности

Существует несколько формальных тестов, позволяющих обнаружить гетероскедастичность (графический анализ остатков, тест ранговой корреляции Спирмена, тест Парка, тест Голфелда-Квандта, тест Уайта).

Графический анализ остатков

Использование графического представления отклонений позволяет определиться с наличием гетероскедастичности. В этом случае по оси абсцисс откладываются значения x i объясняющей переменной X (либо линейной комбинации объясняющих переменных

а по оси ординат либо отклонения ε i либо их квадраты , i = 1, 2, ..., п . Если все отклонения находятся внутри полуполосы постоянной ширины, параллельной оси абсцисс, это говорит о независимости дисперсий от значений переменной X и их постоянстве, т.е. в этом случае выполняются условия гомоскедастичности. Графический анализ отклонений является удобным и достаточно надежным в случае парной регрессии.

Обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение.

Гетероскедастичность

Случайной ошибкой называется отклонение в линейной модели множественной регрессии:

εi=yi–β0–β1x1i–…–βmxmi

В связи с тем, что величина случайной ошибки модели регрессии является неизвестной величиной, рассчитывается выборочная оценка случайной ошибки модели регрессии по формуле:

где ei – остатки модели регрессии.

Термин гетероскедастичность в широком смысле понимается как предположение о дисперсии случайных ошибок модели регрессии.

При построении нормальной линейной модели регрессии учитываются следующие условия, касающиеся случайной ошибки модели регрессии:

6) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

7) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

8) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Второе условие

означает гомоскедастичность (homoscedasticity – однородный разброс) дисперсий случайных ошибок модели регрессии.

Под гомоскедастичностью понимается предположение о том, что дисперсия случайной ошибки βi является известной постоянной величиной для всех наблюдений.

Но на практике предположение о гомоскедастичности случайной ошибки βi или остатков модели регрессии ei выполняется не всегда.

Под гетероскедастичностью (heteroscedasticity – неоднородный разброс) понимается предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, что означает нарушение второго условия нормальной линейной модели множественной регрессии:

Гетероскедастичность можно записать через ковариационную матрицу случайных ошибок модели регрессии:

Тогда можно утверждать, что случайная ошибка модели регрессии βi подчиняется нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2Ω:

где Ω – матрица ковариаций случайной ошибки.

Если дисперсии случайных ошибок

модели регрессии известны заранее, то проблема гетероскедастичности легко устраняется. Однако в большинстве случаев неизвестными являются не только дисперсии случайных ошибок, но и сама функция регрессионной зависимости y=f(x), которую предстоит построить и оценить.

Для обнаружения гетероскедастичности остатков модели регрессии необходимо провести их анализ. При этом проверяются следующие гипотезы.

Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:

Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:

Гетероскедастичность остатков модели регрессии может привести к негативным последствиям:

1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;

2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.

Гомоскедастичность

Гомоскедастичность остатков означает, что дисперсия каждого отклонения одинакова для всех значений x. Если это условие не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно видеть из поля корреляции.

Т.к. дисперсия характеризует отклонение то из рисунков видно, что в первом случае дисперсия остатков растет по мере увеличения x, а во втором – дисперсия остатков достигает максимальной величины при средних значениях величины x и уменьшается при минимальных и максимальных значениях x. Наличие гетероскедастичности будет сказываться на уменьшении эффективности оценок параметров уравнения регрессии. Наличие гомоскедастичности или гетероскедастичности можно определять также по графику зависимости остатков от теоретических значений .

Предположение о постоянстве и конечности дисперсии остатков называется свойством гомоскедастичности остатков (рисунок 5.1). В практических исследованиях это свойство случайной ошибки модели регрессии не всегда выполняется и дисперсия остатков не является постоянной величиной (рисунок 5.2). Такое явление называется гетероскедастичностью .

Рис. 5.1. Линейная модель с гомоскедастичностью

Гетероскедастичность часто вызывается ошибками спецификации, когда не учитывается в модели существенная переменная.

Гетероскедастичность приводит к тому, что оценки коэффициентов регрессии не являются эффективными, т.е. их дисперсии не будут наименьшими. Как следствие рассчитанные значения стандартных ошибок коэффициентов регрессии могут быть заниженными, а потому при проверке статистической значимости коэффициентов может быть ошибочно принято решение об их значимом отличии от нуля, тогда как на самом деле это не так.

Проблема гетероскедастичности характерна для пространственных данных, полученных от неоднородных объектов. Например, если исследуется зависимость расходов на питание в семье от ее общего дохода, то можно ожидать, что разброс данных будет выше для семей с более высоким доходом. Если исследуется зависимость оплаты труда сотрудников предприятий в зависимости от размера основных фондов предприятий и разряда работника, то понятно, что вариация оплаты труда на крупных предприятиях у сотрудников высокого разряда будет значительно превосходить его вариацию для сотрудников низких уровней на малых и средних предприятиях.

Гетероскедастичность иногда возникает и во временных рядах. Это происходит в тех случаях, когда зависимая переменная имеет большой интервал качественно неоднородных значений или высокий темп изменения (инфляция, технологические сдвиги, изменения в законодательстве, потребительские предпочтения и т.д.).

Рис. 5.2. Линейная модель с гетероскедастичностью

В настоящее время для оценки нарушения гомоскедастичности предложено большое число тестов. Чаще всего используются графический анализ отклонений, тест ранговой корреляции Спирмена и тест Голдфелда-Квандта.

Графический анализ отклонений заключается в визуальной оценке разброса точек корреляционного поля около линии регрессии: считается, что условие 2 выполняется, если точки наблюдений расположены внутри полосы постоянной ширины, окаймляющей линию регрессии (например, как на рисунке 5.1). Для множественной регрессии осуществляется графический анализ корреляционных полей объясняемой переменной в зависимости от каждого из факторов .

Наиболее популярным тестом обнаружения гетероскедастичности является тест Голдфелда-Квандта. Тест применяется в том случае, если ошибки регрессии можно считать нормально распределенными случайными величинами. Кроме того, в основе его лежит предположение о пропорциональности дисперсий случайного члена значению выбранной объясняющей переменной. Тест проводится по следующей схеме.

1. На основе выборочных данных строится линейная модель множественной регрессии с объясняющими переменными .

2. В модели множественной регрессии (например, на основе графического анализа) выбирается факторная переменная, от которой предположительно могут зависеть остатки. Значения этой переменной ранжируются, располагаются по возрастанию и делятся на три части объемами (обычно принимают ).

3. Для первой и третьей частей строятся две независимые модели регрессии.

4. По каждой из построенных моделей рассчитывают суммы квадратов остатков S 1 и S 3 .

5. Осуществляется проверка основной гипотезы об отсутствии гетероскедастичности с помощью -критерия Фишера. Наблюдаемое значение -критерия рассчитывается следующим образом:

Если , то в основной модели присутствует гетероскедастичность, зависящая от выбранной объясняющей переменной (число степеней свободы определяется значениями и ).

Если нет уверенности относительно выбора объясняющей переменной, вызывающей гетероскедастичность, то тест осуществляется для каждой из объясняющих переменных .

Наличие гетероскедастичности в остатках регрессии можно проверить и с помощью теста ранговой корреляции Спирмена. При выполнении теста предполагается, что абсолютные величины остатков и значения объясняющей переменной коррелированны. Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмена:

где – разность между рангом и рангом модуля остатка .

Тест проводится по следующей схеме.

1. Строится линейная модель регрессии.

2. Данные по и модули остатков ранжируются по переменной , определяются их ранги (ранг – это порядковый номер значений переменной в ранжированном ряду).

3. Осуществляется проверка основной гипотезы об отсутствии гетероскедастичности с помощью -статистики с степенями свободы, где n – объем выборки. При этом наблюдаемое значение -критерия определяется равенством . Если , то нулевая гипотеза об отсутствии гетероскедастичности отклоняется и имеет место гетероскедастичность в остатках регрессии, т.е. условие 2 не выполняется.

После установления в модели наличия гетероскедастичности возникает вопрос о том, в какой мере существенно она влияет на качество модели и следует ли вообще с гетероскедастичностью бороться. Ведь при гетероскедастичности оценки коэффициентов регрессии все равно остаются несмещенными и состоятельными, правда, не будут эффективными.

Если исследователь решил вступить в борьбу с гетероскедастичностью, то первый шаг на этом пути заключается в определении ее типа. Если гетероскедастичность вызвана ошибками спецификации, то для ее устранения необходимо включить в уравнение пропущенные существенные переменные и подобрать правильную функциональную форму. Если гетероскедастичность наблюдается в правильно специфицированных моделях (чистая гетероскедастичность ), то можно воспользоваться взвешенным методом наименьших квадратов (ВМНК).

Данный метод применяется при известных для каждого наблюдения значениях дисперсиях . В этом случае можно устранить гетероскедастичность, разделив каждое наблюдаемое значение на соответствующее ему среднеквадратическое отклонение. Тем самым обеспечивается равномерный вклад остатков в общую сумму.

Таким образом, если при обычном МНК в случае парной линейной модели для нахождения ее параметров и минимизируется сумма , то при ВМНК минимизируется сумма

Применение ВМНК включает следующие этапы.

1. С помощью обычного МНК строится линейная регрессионная модель и

доказывается наличие гетероскедастичности остатков.

2. Для каждого наблюдения устанавливаются фактические значения дисперсий отклонений.

3. Значения каждой пары наблюдений делятся на известную величину . Тем самым наблюдениям с наименьшими дисперсиями придаются наибольшие веса, а наблюдениям с наибольшими дисперсиями – наименьшие веса.

В соответствии с одной из предпосылок МНК нужно, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора X остатки е, имеют одну и ту же дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность. Наличие гетероскедастичности можно наглядно продемонстрировать на поле корреляции (см. рис.).

Гомоскедастичность остатков означает, что дисперсия остатков одна и та же для каждого значения X. Используя трехмерное изображение, можно получить следующие графики, которые проиллюстрируют гомо- и гетероскедастичность

Рисунок с гомоскедастичностью показывает, что для каждого значения Х, распределения остатков одинаково в отличие от гетероскедастичности.

Для множественной регрессии вид графиков является наиболее наглядным способом изучения гомо- и гетероскедастичности.

Наличие гетероскедастичности может в ряде случаях привести к смещенности оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов регрессии, как правило, зависит от соблюдения второй предпосылки МНК, т. е. независимости остатков и величин факторов. Гетероскедастичность будет сказываться на уменьшении эффективности оценок b. В ча-стности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии Sb, которая предполагает единую дисперсию остатков для любых значений фактора.

Определение гетероскедастичности

При малом объеме выборки, что характерно для большинства , для оценки гетероскедастичости используют метод Гольдфельда - Квандта, который был разботан в 1965 г. Гольдфельдом и Квандтом, где они рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Чтобы оценить нарушение гомоскедастичности, они предложили выполнить следующие операции.

Упорядочить наблюдения по мере возрастания фактора Х.
Исключить из рассмотрения С центральных наблюдений, причем (n - С): 2 > р, где р - число оцениваемых параметров.
Разделить совокупность из (n - С) наблюдений на две группы (с малыми и большими значениями фактора X).
Определить остаточную сумму квадратов для первой (S1) и второй (S2) групп и нахождение отношения: R = S1: S2.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять критерию Фишера с (n - С - 2p) : 2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем в большей степени нарушена предпосылка о равенстве дисперсий остаточных величин.