Основные последствия мультиколлинеарности. Привет студент

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

37. Определение мультиколлинеарности. Последствия мультиколлинеарности. Методы обнаружения мультиколлинеарности

Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.

Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.

Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.

Мультиколлинеарность в матричном виде – это зависимость между столбцами матрицы факторных переменных Х :

Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n , то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.

Можно сделать вывод, что одной из основных причин присутствия мультиколлинеарности в модели множественной регрессии является плохая матрица факторных переменных Х .

Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:

1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;

3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.

Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ ).

Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:

где rij – линейный коэффициент парной корреляции между i -м и j -ым факторными переменными,

На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.

При рассмотрении данной матрицы с целью выявления мультиколлинеарных факторов руководствуются следующими правилами:

1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мультиколлинеарность;

2) вычисляют собственные числа корреляционной матрицы факторных переменных ?min и ? max . Если ? min‹10-5 , то в модели регрессии присутствует мультиколлинеарность. Если отношение

то также делают вывод о наличии мультиколлинеарных факторных переменных;

3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность.

Данный текст является ознакомительным фрагментом. Из книги 100 великих чудес техники автора Мусский Сергей Анатольевич

Самолет дальнего радиолокационного обнаружения «Боинг» E-3 Это было 8 мая 1942 года в Коралловом море. «В 10 часов 55 минут радиолокационная установка обнаружила большую группу вражеских самолетов, подходившую с северо-востока. В 11 часов 13 минут наблюдатели «Лексингтона»

Из книги Энциклопедия безопасности автора Громов В И

1.3.5. Средства обнаружения и обезвреживания мин Обнаружение мин, отдельных фугасов, а также минированных участков производится:- по внешним признакам;- специальными приборами (миноискатели, щупы, стетоскопы);- собаками минорозыскной службы.*Демаскирующие признаки

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

38. Методы устранения мультиколлинеарности Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным

Из книги Судебная медицина и психиатрия: Шпаргалка автора Автор неизвестен

Из книги Гражданский кодекс РФ автора ГАРАНТ

Из книги "Шпионские штучки 2" или как сберечь свои секреты автора Андрианов Владимир Ильич

4.2. Специальные инструменты для обнаружения тайников 4.2.1. Поисковое зеркалоОсновным инструментом для обнаружения тайников является поисковое зеркало. Оно может быть маленьким, примерно как у зубного врача, может быть и гораздо больше. Зеркало (рис. 4.2) крепится на

Из книги Криминалистика. Шпаргалки автора Петренко Андрей Витальевич

27. Правила и классификация методов обнаружения следов 1. Первыми должны применяться неразрушающие методы. Необходимо начинать с микрометодов: не осталось ли каких-либо жировых следов, мельчайших клеточек отслоившейся кожи.2. Далее применяются неразрушающие методы,

Из книги Сила шаманов. Боевая и лечебная магия индейцев Дикого Запада автора Стукалин Юрий Викторович

38. Следы зубов: особенности обнаружения и их признаки Достаточно распространенными являются трассологические исследования следов зубов человека. Криминалистика изучает только следы зубов на материалах, поверхностях, еде; следы на теле человека - предмет изучения

Из книги Учебник выживания снайпера [«Стреляй редко, но метко!»] автора Федосеев Семён Леонидович

41. Особенности обнаружения, изъятия пуль и гильз В большинстве случаев гильза остается на месте преступления, способ обнаружения может быть: а) выборочный; б) сплошной.Применение выборочного способа для короткоствольного оружия таково:- устанавливается

Из книги Обман и провокации в малом и среднем бизнесе автора Гладкий Алексей Анатольевич

57. Средства для обнаружения микрообъектов Микрообъекты - это материальные объекты, связанные с событием преступления, поиск, обнаружение, изъятие и исследование которых ввиду их малых размеров и массы затруднительны или невозможны невооруженным глазом.Действия с

Из книги Базовая подготовка спецназа [Экстремальное выживание] автора Ардашев Алексей Николаевич

58. Особенности обнаружения микрообъектов Поиск и обнаружение микрообъектов должны осуществляться с соблюдением мер предосторожности. Все объекты сначала осматриваются без каких-либо перемещений; при изменении положения объекта под него помещают чистый лист кальки,

Из книги автора

Методы обнаружения колдунов «Есть много способов отличить колдуна от шамана, хотя большинство людей, обладающих мощной Силой, практикуют и то и другое, – говорили чирикауа апачи. – Человек мог жить рядом с колдуном и не знать об этом. Например, колдуньей могла быть его

Из книги автора

Из книги автора

Антижучок, или Средства обнаружения шпионской аппаратуры Как уже отмечалось, в настоящее время на российском рынке представлено великое множество самых разных шпионских устройств и разведывательной аппаратуры: скрытые микрофоны, жучки, системы скрытого

Мультиколлинеарность означает, что в множественной регрессионной модели две или большее число независимых переменных (факторов) связаны между собой тесной линейной зависимостью или, другими словами, имеют высокую степень корреляции ().

Последствия мультиколлинеарности:

1. Первым практическим последствием мультиколлинеарности является большая дисперсия и ковариация оценок параметров, вычисленных методом наименьших квадратов.

2. Вторым практическим последствием мультиколлинеарности является увеличение доверительных интервалов теоретических коэффициентов уравнения линейной регрессии.

3. Уменьшается статистика коэффициентов, поэтому возможен вывод о статистической незначимости коэффициента.

4. Коэффициенты уравнения регрессии становятся очень чувствительными к малейшим изменениям данных.

5. Затрудняется определение вклада каждой из переменных в объясняемую уравнением дисперсию признака.

К сожалению, нет единого подхода для определения мультиколлинеарности. Приведем несколько методов тестирования наличия мультиколлинеарности.

1) Высокое значение коэффициента детерминации и низкие статистики некоторых переменных.

2) Высокие значения частных коэффициентов корреляции. Однако это условие является достаточным, но не является необходимым условием наличия мультиколлинеарности. Она может иметь место даже при относительно небольших значениях коэффициентов корреляции, когда число факторов больше двух.

3) тест Фаррара–Глобера.

Этот тест имеет и другое название: построение вспомогательной регрессии.

Коэффициент детерминации является коэффициентом детерминации в уравнении регрессии, которое связывает фактор с остальными факторами Например, .является коэффициентом детерминации такой регрессии:

Для каждого коэффициента детерминации рассчитываем отношение:

Тест проверяет гипотезу

при конкурирующей гипотезе

Вычисленное значение сравниваем с критическим значением , найденным по таблицам распределения Фишера с и степеням свободы и заданным уровнем значимости. Если то отвергаем нулевую гипотезу и считаем, что фактор является мультиколлинеарным; если то нулевую гипотезу принимаем и убеждаемся, что фактор не является мультиколлинеарным.

Для устранения мультиколлинеарности существует несколько способов.

Первый способ. Если между двумя факторами и существует мультиколлинеарность, то один из факторов исключается из рассмотрения.

После изучения данной главы студент должен: знать

  • основные проблемы, возникающие при нарушении предположения МНК об отсутствии мультиколлинеарности;
  • методы обнаружения и устранения мультиколлинеарности; уметь
  • выявлять нарушения классической предпосылки МИК - мультиколлинеарности;

владеть

  • методами выявления наличия нарушений предпосылок МИК;
  • методами устранения мультиколлинеарности.

Понятие мультиколлинеарности

Мультиколлинеарностью называется высокая степень коррелированное™ двух или нескольких объясняющих переменных в уравнении множественной регрессии. Крайним случаем мультиколлинеарности является линейная зависимость между объясняющими переменными. Считается, что две переменные X,- и X сильно коррелированы, если выборочный коэффициент корреляции двух объясняющих переменных г хх. >0,7.

Рассмотрим виды мультиколлинеарности.

1. Строгая мультиколлинеарность - наличие линейной функциональной связи между объясняющими переменными (иногда также линейная связь с зависимой переменной). Связь между объясняющими переменными - функциональная.

Строгая мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии b t и bj и разделить вклады объясняющих переменных Xj и Xj в зависимую переменную У.

2. Нестрогая мультиколлинеарность - наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой переменной). При нестрогой мультиколлинеарности связь между объясняющими переменными корреляционная.

Сложность проблемы мультиколлинеарности состоит в следующем.

  • 1. Корреляционные связи есть всегда. Проблема мультиколлинеарности - сила проявления корреляционных связей.
  • 2. Однозначных критериев определения мультиколлинеарности не существует.
  • 3. Строгая мультиколлинеарность нарушает предпосылку 5 теоремы Гаусса - Маркова и делает построение регрессии невозможным (см. гл. 4, параграф 4.1), так как согласно теореме Кронекера - Капелли система уравнений имеет бесчисленное множество решений.
  • 4. Нестрогая мультиколлинеарность затрудняет работу, но не препятствует получению правильных выводов.

Поясним сказанное о проблеме мультиколлинеарности. Пусть имеется т объясняющих факторов Х { , Х 2 , ..., Х т. Матрица межфакторной корреляции состоит из парных коэффициентов корреляции и имеет вид

Парный коэффициент корреляции г х. х. определяется по формуле 1

Отметим, что так как r xx = 1, i = 1,2,..., т, и г х х. = г х х., то данная матрица является симметрической.

Если связь между факторами полностью отсутствует, то недиагональные элементы матрицы межфакторной корреляции будут равны нулю, а ее определитель будет равен единице: | R xx = 1.

Пример 7.1

Пусть имеется четыре объясняющие переменные Х ь Х->, Х 3 , Аф При отсутствии взаимной корреляции между переменными (> хх = 0) определитель матрицы межфакторной корреляции будет равен

Противоположный случай: если связь между факторами является очень тесной (практически функциональной), то определитель матрицы межфакторной корреляции будет равен нулю.

Пример 7.2

Имеется четыре объясняющие переменные X lt Х 2 , Х 3 , Х 4 , между всеми переменными сильная функциональная связь (г х. х. =1). Тогда

Вывод. Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы межфакторной корреляции. Если |R xx . | ~1, то мультиколлинеарность отсутствует, а если | Л |

Совершенная мультиколлинеарность - равенство определителя матрицы межфакторной корреляции нулю - проявляется скорее в теории, а практически между некоторыми объясняющими переменными существует очень сильная корреляционная зависимость г х. х > 0,7, а не функциональная г х. х =1.

Замечание 7.1. Существует истинная мультиколлинеарность при отсутствии зависимости между переменными, что показано в примере 7.3.

Пример 7.3

Имеется выборка из 10 групп наблюдений (табл. 7.1).

Таблица 7.1

Данные к примеру 7.3

В данной выборке существует строгая мультиколлинеарность при отсутствии зависимости между переменными: х, * f(xj), г *j.

Матрица парных коэффициентов корреляции

Определитель этой матрицы равен -0,003402, т.е. практически равен нулю. Это говорит о совершенной мультиколлинеарности в выборке. Коэффициенты парной корреляции.г| 2 и.г 23 очень высоки.

Полная матрица парных коэффициентов корреляции R yx . включает коэффициенты парной корреляции факторов с результатом г 1/х. и факторов между собой г х. х:


Отметим, что в случае мультиколлинеарности в модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Причины возникновения мультиколлинеарности следующие:

  • 1) ошибочное включение в уравнение регрессии двух или более линейно зависимых объясняющих переменных;
  • 2) две (или более) объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретной выборке сильно коррелированными;
  • 3) в модель включается объясняющая переменная, сильно коррелирующая с зависимой переменной (такая переменная называется доминантной).
  • 2 Термин коллинеарность характеризует линейную связь между двумя объясняющими переменными. Мультиколлинеарность означает линейную связь между более чем двумя объясняющими переменными. На практике всегда используется один термин - мультиколлинеарность.
  • В гл. 2 соответствующая формула - это формула (2.9).

Предположим, что мы рассматриваем регрессионное уравнение и данные для его оценки содержат наблюдения для разных по качеству объектов: для мужчин и женщин, для белых и черных. вопрос, который нас может здесь заинтересовать, следующий – верно ли, что рассматриваемая модель совпадает для двух выборок, относящихся к объектам разного качества? Ответить на этот вопрос можно при помощи теста Чоу.

Рассмотрим модели:

, i =1,…,N (1);

, i =N +1,…,N +M (2).

В первой выборке N наблюдений, во второй – М наблюдений. Пример: Y – заработная плата, объясняющие переменные – возраст, стаж, уровень образования. Следует ли из имеющихся данных, что модель зависимости заработной платы от объясняющих переменных, стоящих в правой части одинакова для мужчин и женщин?

Для проверки этой гипотезы можно воспользоваться общей схемой проверки гипотез при помощи сравнения регрессии с ограничениями и регрессии без ограничений. Регрессией без ограничений здесь является объединение регрессий (1) и (2), т. е. ESS UR = ESS 1 + ESS 2 , число степеней свободы – N + M - 2k . Регрессией с ограничениями (т. е. регрессией в предположении, что выполнена нулевая гипотеза) будет являться регрессия для всего имеющегося набора наблюдений:

, i = 1,…, N +M (3).

Оценивая (3), получаем ESS R . Для проверки нулевой гипотезы используем следующую статистику:

Которая в случае справедливости нулевой гипотезы имеет распределение Фишера с числом степеней свободы числителя k и знаменателя N + M - 2k .

Если нулевая гипотеза справедлива, мы можем объединить имеющиеся выборки в одну и оценивать модель для N + M наблюдений. Если же нулевую гипотезу отвергаем, то мы не можем слить две выборки в одну, и нам придется оценивать эти две модели по отдельности.


Изучение общей линейной модели, рассмотренной нами ранее, весьма существенно, как мы видели, опирается на статистический аппарат. Однако, как и во всех приложениях мат. статистики, сила метода зависит от предположений, лежащих в его основе и необходимых для его применения. Некоторое время мы будем рассматривать ситуации, когда одна или более гипотез, лежащих в основе линейной модели, нарушается. Мы рассмотрим альтернативные методы оценивания в этих случаях. Мы увидим, что роль одних гипотез более существенна по сравнению с ролью других. Нам надо посмотреть, к каким последствиям может привести нарушения тех или иных условий (предположений), уметь проверить, удовлетворяются они или нет и знать, какие статистические методы можно и целесообразно применять, когда не подходит классический метод наименьших квадратов.

1. Связь между переменными линейная и выражается уравнением - ошибки спецификации модели (невключение в уравнение существенных объясняющих переменных, включение в уравнение лишних переменных, неправильный выбор формы зависимости между переменными);


2. X 1 ,…,X k – детерминированные переменные – стохастические регрессоры, линейно независимые – полная мультиколлинеарность;

4. - гетероскедастичность;

5. при i ¹ k – автокорреляция ошибок

Прежде чем приступать к разговору, рассмотрим следующие понятия: парный коэффициент корреляции и частный коэффициент корреляции.

Предположим, что мы исследуем влияние одной переменной на другую переменную (Y и X ). Для того чтобы понять, насколько эти переменные связаны между собой, мы вычисляем парный коэффициент корреляции по следующей формуле:

Если мы получили значение коэффициента корреляции близкое к 1, мы делаем вывод о том, что переменные достаточно сильно связаны между собой.

Однако, если коэффициент корреляции между двумя исследуемыми переменными близок к 1, на самом деле они могут и не быть зависимыми. Пример с душевнобольными и радиоприемниками – пример так называемой «ложной корреляции». Высокое значение коэффициента корреляции может быть обусловлено и существованием третьей переменной, которая оказывает сильное влияние на первые две переменные, что и служит причиной их высокой коррелируемости. Поэтому возникает задача расчета «чистой» корреляции между переменными X и Y , т. е. корреляции, в которой исключено влияние (линейное) других переменных. Для этого и вводят понятие коэффициента частной корреляции.

Итак, мы хотим определить коэффициент частной корреляции между переменными X и Y , исключив линейное влияние переменной Z . Для его определения используется следующая процедура:

1. Оцениваем регрессию ,

2. Получаем остатки ,

3. Оцениваем регрессию ,

4. Получаем остатки ,

5. - выборочный коэффициент частной корреляции, измеряет степень связи между переменными X и Y , очищенную от влияния переменной Z .

Прямые вычисления:

Свойство:

Процедура построения коэффициента частной корреляции обобщается на случай, если мы хотим избавиться от влияния двух и более переменных.


1. Совершенная мультиколлинеарность.

Одно из требований Гаусса-Маркова говорит нам о том, чтобы объясняющие переменные не были связаны никаким точным соотношением. Если такое соотношение между переменными существует, мы говорим о том, что в модели присутствует совершенная мультиколлинеарность. Пример. Рассмотрим модель со средней оценкой на экзамене, состоящую из трех объясняющих переменных: I - доход родителей, D - среднее число часов, затраченных на обучение в день, W - среднее число часов, затраченных на обучение в неделю. Очевидно, что W =7D . И это соотношение будет выполняться для каждого студента, который попадет в нашу выборку. Случай полной мультиколлинеарности отследить легко, поскольку в этом случае невозможно построить оценки по методу наименьших квадратов.

2. Частичная мультиколлинеарность или просто мультиколлинеарность.

Гораздо чаще встречается ситуация, когда между объясняющими переменными точной линейной зависимости не существует, но между ними существует тесная корреляционная зависимость – этот случай носит название реальной или частичной мультиколлинеарности (просто мультиколлинеарность) – существование тесных статистических связей между переменными. Надо сказать, что вопрос мультиколлинеарности – это вопрос скорее степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в том или ином виде, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это начинает серьезно влиять на результаты оценки регрессии (наличие статистических связей между регрессорами вовсе не обязательно дает неудовлетворительные оценки). Итак, мультиколлинеарность – это проблема, когда тесная корреляционная зависимость между регрессорами ведет к получению ненадежных оценок регрессии.

Последствия мультиколлинеарности:

Формально, поскольку (X "X ) – невырожденная, то мы можем построить МНК-оценки коэффициентов регрессии. Однако вспомним, как выражаются теоретические дисперсии оценок коэффициентов регрессии: , где a ii - i -й диагональный элемент матрицы . Поскольку матрица (X"X) близка к вырожденной и det(X "X ) » 0, то

1) на главной диагонали обратной матрицы стоят очень большие числа, поскольку элементы обратной матрицы обратно пропорциональны det(X "X ). Следовательно, теоретическая дисперсия i -го коэффициента достаточно большая и оценка дисперсии так же большая, следовательно, t - статистики небольшие, что может привести к статистической незначимости i -го коэффициента. Т. е. переменная оказывает значимое влияние на объясняемую переменную, а мы делаем вывод о ее незначимости.

2) Поскольку оценки и зависят от (X "X ) -1 , элементы которой обратно пропорциональны det(X "X ), то если мы добавим или уберем одно-два наблюдения, добавив или убрав, таким образом, одну-две строки к матрице X "X , то значения и могут измениться существенным образом, вплоть до смены знака – неустойчивость результатов оценивания.

3) Трудность интерпретации уравнения регрессии. Допустим, у нас в уравнении есть две переменные, которые связаны между собой между собой: X 1 и X 2 . Коэффициент регрессии при X 1 интерпретируется как мера изменения Y за счет изменения X 1 при прочих равных условиях, т.е. значения всех других переменных остаются прежними. Однако, поскольку переменные Х 1 и Х 2 связаны, то изменения в переменной Х 1 повлекут за собой предсказуемые изменения в переменной Х 2 и значение Х 2 не останется прежним.

Пример: , где Х 1 – общая площадь, Х 2 – жилая площадь. Мы говорим: "Если жилая площадь увеличиться на 1 кв. м., то при прочих равных условиях цена квартиры увеличиться на долл". Однако в этом случае и жилая площадь увеличится на 1 кв. м. и прирост цены будет . Разграничить влияние на переменную Y каждой переменной в отдельности уже не представляется возможным. Выход в данной ситуации с ценой на квартиру -–включить в модель не общую площадь, а так называемую "добавочную" или "дополнительную" площадь.

Признаки мультиколлинеарности.

Точных критериев для определения наличия (отсутствия) мультиколлинеарности не существует. Однако есть эвристические рекомендации по ее выявлению:

1) Анализируют матрицу парных коэффициентов корреляции между регрессорами и если значение коэффициента корреляции близко к 1, то это считается признаком мультиколлинеарности.

2) Анализ матрицы корреляции – лишь поверхностное суждение о наличии (отсутствии) мультиколлинеарности. Более внимательное изучение этого вопроса достигается при помощи расчета коэффициентов частной корреляции или расчетов коэффициентов детерминации каждой из объясняющих переменных по всем другим объясняющим переменным в регрессии .

4) (Х X ) – симметричная положительно определенная матрица, следовательно, все ее собственные числа неотрицательны. Если определитель матрицы (Х X ) равен нулю, то минимальное собственное число так же ноль и непрерывность сохраняется. Следовательно, по значению манимального собственного числа можно судить и о близости к нулю определителя матрицы (Х X ). Кроме этого свойства минимальное собственное число важно еще и потому, что стандартная ошибка коэффициента обратно пропорциональна .

5) О наличии мультиколлинеарности можно судить по внешним признакам, являющимся следствиями мультиколлинеарности:

a) некоторые из оценок имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения;

b) небольшое изменение исходных экономических данных приводит к существенному изменению оценок коэффициентов модели;

c) большинство t -статистик коэффициентов незначимо отличаются от нуля, в то же время модель в целом является значимой, о чем говорит высокое значение F -статистики.

Как избавится от мультиколлинеарности, как ее устранить:

1) Использование факторного анализа. Переход от исходного набора регрессоров, среди которых есть статистически зависимые, к новым регрессорам Z 1 ,…,Z m при помощи метода главных компонент – вместо исходных переменных вместо исходных переменных рассматриваем некоторые их линейные комбинации, корреляция между которыми мала или отсутствует вообще. Задача здесь – дать содержательную интерпретацию новым переменным Z . Если не удалось – возвращаемся к исходным переменным, используя обратные преобразования. Полученные оценки будут, правда, смещенными, но будут иметь меньшую дисперсию.

2) Среди всех имеющихся переменных отобрать наиболее существенно влияющих на объясняемую переменную факторов. Процедуры отбора будут рассмотрены ниже.

3) Переход к смещенным методам оценивания.

Когда мы сталкиваемся с проблемой мультиколлинеарности, то у неискушенного исследователя поначалу возникает желание просто исключить лишние регрессоры, которые, возможно, служат ее причиной. Однако не всегда ясно, какие именно переменные являются лишними в указанном смысле. Кроме того, как будет показано ниже, отбрасывание так называемых существенно влияющих переменных приводит к смещенности МНК-оценок.


Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Исключение переменной(ых) из модели
Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
Получение дополнительных данных или новой выборки
Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
Изменение спецификации модели
В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
Использование предварительной информации о некоторых параметрах
Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.
Пусть

Множественный коэффициент
корреляции между зависимой переменной Y и набором объясняющих переменных X 1,X 2,...,Xm. Он определяется как обычный парный коэффициент корреляции между Y и линейной функцией
регрессии Y = b0 + KX1 + b2X2+... + bmXm. Пусть amp; = R-1 - матрица, обратная к матрице R:


Тогда квадрат коэффициента Ry.X = Rr(xi,x2,..,x) может быть вычислен по формуле:


Подправленная на несмещенность оценка R*2.X коэффициента детерминации R2y.X имеет вид:

(Если поформуле (6.7) получают отрицательное число, то полагают


Нижняя доверительная граница для

определяется
по формуле:

На практике, при решении вопроса о том, какие объясняющие переменные следует включать в модель, часто используют процедуру последовательного присоединения элементов.
(j = 1, 2,..., m) . При этом

совпадает с квадратом обычного
парного коэффициента корреляции

Пусть


тогда наиболее информативной будет переменная xp. Затем рассчитывают подправленный на несмещенность коэффициент
(при m = 1) и его нижнюю доверительную границу R2min (1) .


более информативной будет пара jxp,xq). Затемрассчитывают подправленный на несмещенность коэффициент(при m = 2)
и его нижнюю доверительную границу R2min (2) .

Процедуру продолжают до тех пор, когда на шаге (к +1) выполнится условие:
Тогда в модель включают наиболее информативные переменные, полученные на первых к шагах. Отметим, что в расчетах используют формулы (6.7) и (6.8), в которых вместо т берут соответствующее значение номера шага к.
На самом деле этот метод не гарантирует, что мы избавимся от мультиколлинеарности.
Используют и другие методы устранения мультиколлинеарности.
Пример 6.1. Имеются следующие условные данные (табл. 6.1):
Таблица 6.1
Данные для метода последовательного включения


Х1

Х2

Х3

У

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Рассмотрим влияние на зависимую переменную каждой из объясняющих переменных в отдельности. Вычисляя парные коэффициенты корреляции, получим, что наибольшее значение имеет коэффициент

Тогда:


Рассмотрим влияние на зависимую переменную пар переменных (x1, x2) и (x1, x3). Сначала рассмотрим влияние пары переменных (x1, x2).



icuvum uvjpcuuivi, ыхсдул рсьимслдсіцшім мсіида ііи^ісдиьсіїсльпи-
го присоединения переменных, в уравнение следует включить две объясняющие переменные. Следовательно, теоретическое уравнение примет вид:
Гребневой метод
Рассмотрим «гребневой метод» («ридж-регрессия») устранения мультиколлинеарности. Метод был предложен А. Э. Хоэрлом в 1962 г. и применяется, когда матрица (xtX) близка к вырожденной. К диагональным элементам матрицы (xtX) добавляют некоторое небольшое число (от 0,1 до 0,4). При этом получают смещенные оценки параметров уравнения. Но стандартные ошибки таких оценок в случае мультиколлинеарности ниже ошибок даваемых обычным методом наименьших квадратов.
Пример 6.2. Исходные данные представлены « табл6 2 Коэффициент корреляции объясняющих переменных

что
свидетельствует о сильной мультиколлинеарности.
Таблица 6.2
Данные для исследования мультиколлинеарности гребневым методом


x1

x2

У

1

1,4

7

2

3,1

12


Тогда получим уравнение у = 2,63 +1,37x1 + 1,95x2. Диагональные элементы обратной матрицы значительно снизятся и будут равны z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, что приводит к снижению стандартных ошибок коэффициентов.
Резюме
Среди основных последствий, к которым может привести мультиколлинеарность, можно выделить следующие:
  1. при проверке основной гипотезы о незначимости коэффициентов множественной регрессии с помощью t-критерия в большинстве случаев она принимается, однако само уравнение регрессии при проверке с помощью A-критерия оказывается значимым, что говорит о завышенной величине коэффициента множественной корреляции;
  2. полученные оценки коэффициентов уравнения множественной регрессии в основном неоправданно завышены или имеют неправильные знаки;
  3. добавление или исключение из исходных данных одного- двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;
  4. наличие мультиколлинеарности в модели множественной регрессии может сделать ее непригодной для дальнейшего применения (например, для построения прогнозов).
Вопросы для самопроверки
  1. Что такое мультиколлинеарность?
  2. Какие показатели свидетельствуют о наличии мультиколлинеарности?
  3. Чему равен определитель матрицы XTX в случае совершенной мультиколлинеарности?
  4. Что можно сказать о смысле коэффициентов при объясняющих переменных в случае мультиколлинеарности?
  5. Какое преобразование производят в гребневом методе, к чему оно приводит?
  6. Каков порядок действий в методе последовательного увеличения числа объясняющих переменных?
  7. Что показывает коэффициент корреляции?
  8. Что показывает частный коэффициент корреляции?