WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 6 | 7 || 9 | 10 |   ...   | 18 |

неизвестный коэффициент приой объясняющей переменной;

случайная составляющая (“ошибка“) в м наблюдении.

(2) случайные величины, независимые в совокупности, имеющие одинаковое нормальное распределение N (0,s2) с нулевым математическим ожиданием и дисперсией (3) Если не оговорено противное, то в число объясняющих переменных включается переменная, тождественно равная единице, которая объявляется первой объясняющей переменной, так что При сделанных предположениях являются наблюдаемыми значениями нормально распределенных случайных величин, которые независимы в совокупности и для которых так что ~ В отличие от, случайные величины имеют распределения, отличающиеся сдвигами.

Определенную указанным образом модель наблюдений мы будем называть нормальной линейной моделью с p объясняющими переменными. Иначе ее еще называют нормальной линейной моделью множественной регрессии переменной y на переменные x1,..., xp. Термин “множественная” указывает на использование в правой части модели наблюдений двух и более объясняющих переменных, отличных от постоянной. Термин “регрессия” имеет определенные исторические корни и используется лишь в силу традиции.

Оценивание неизвестных коэффициентов модели методом наименьших квадратов состоит в минимизации по всем возможным значениям суммы квадратов Минимум этой суммы достигается при некотором наборе значений коэффициентов так что Это минимальное значение мы опять обозначаем RSS, так что и называем остаточной суммой квадратов.

Коэффициент детерминации R2 определяется как где Обозначая (подобранные fitted значения объясняющей переменной по оцененной линейной модели связи), и определяя остаток (residual) от iго наблюдения как мы получаем:

Обозначая объясненная моделью (explained) сумма квадратов, или регрессионная сумма квадратов, мы так же, как и в случае простой линейной регрессии с, имеем разложение так что И опять, это разложение справедливо только при наличии постоянной составляющей в модели линейной связи. При этом, также, здесь т.е. коэффициент детерминации равен квадрату выборочного коэффициента корреляции между переменными и. Последний называется множественным коэффициентом корреляции (multipleR).

Для поиска значений, минимизирующих сумму следует приравнять нулю частные производные этой суммы (как функции от ) по каждому из аргументов. В результате получаем систему нормальных уравнений или Это система линейных уравнений с неизвестными. Ее можно решать или методом подстановки или по правилу Крамера с использованием соответствующих определителей. В векторноматричной форме эта система имеет вид где матрица значений объясняющих переменных в наблюдениях;

транспонированная матрица;

и соответственно, векторстолбец значений объясняемой переменной в наблюдениях и векторстолбец оценок неизвестных коэффициентов. Система нормальных уравнений имеет единственное решение, если выполнено условие (4) матрица XTX невырождена, т.е. ее определитель отличен от нуля:

которое можно заменить условием (4’) столбцы матрицы X линейно независимы.

При выполнении этого условия матрица (размера ) имеет обратную к ней матрицу.

Умножая в таком случае обе части последнего уравнения слева на матрицу, находим искомое решение системы нормальных уравнений:

Введем дополнительные обозначения,,,.

Тогда модель наблюдений можно представить в матричновекторной форме Вектор подобранных значений имеет вид и вектор остатков равен Определяющим для всего последующего является то обстоятельство, что в нормальной линейной модели с несколькими объясняющими переменными оценки коэффициентов как случайные величины имеют нормальные распределения (хотя эти случайные величины уже не являются независимыми в совокупности).

Действительно, поскольку, то оценки являются линейными комбинациями значений, т.е. имеют вид где коэффициенты, определяемые значениями объясняющих переменных. Поскольку же у нас наблюдаемые значения случайных величин, то является наблюдаемым значением случайной величины которую мы также будем обозначать :

Ранее мы выяснили, что при наших предположениях ~ Поэтому случайные величины также будут нормальными как линейные комбинации независимых нормально распределенных случайных величин.



Можно показать, что математическое ожидание случайной величины равно ( является несмещенной оценкой истинного значения коэффициента ), а дисперсия этой случайной величины равна му диагональному элементу матрицы :

Рассмотренная ранее модель простой линейной регрессии вкладывается в модель множественной линейной регрессии с :

,,,.

Матрица имеет вид Учитывая, что находим:

2.5. НОРМАЛЬНАЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ: ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ КОЭФФИЦИЕНТОВ Рассматривая нормальную модель линейной множественной регрессии с ~ i. i. d., мы установили, что оценка наименьших квадратов неизвестного истинного значения коэффициента при — ой объясняющей переменной имеет нормальное распределение, причем Рассмотрим теперь случайную величину получаемую путем вычитания из случайной величины ее математического ожидания и деления полученной разности на корень из дисперсии (т. е. путем центрирования и нормирования случайной величины ). При совершении этих двух действий мы не выходим из семейства нормальных случайных величин, получая опять же нормальную случайную величину, но только уже с другими математическим ожиданием и дисперсией. Используя упомянутые ранее свойства математического ожидания и дисперсии, находим:

так что ~ Иными словами, в результате центрирования и нормирования случайной величины мы получили случайную величину, имеющую стандартное нормальное распределение, т.

е. нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. Функцию распределения и функцию плотности распределения такой случайной величины обозначают, соответственно, как и :

Для каждого значения, определим символом число, для которого, так что если случайная величина имеет стандартное нормальное распределение, то тогда Такое число называется квантилью уровня p стандартного нормального распределения.

Заштрихованная площадь под графиком плотности стандартного нормального распределения находится правее квантили уровня ;

эта квантиль равна. Поэтому площадь под кривой, лежащая левее точки, равна, а заштрихованная площадь равна. Последняя величина есть вероятность того,что случайная величина, имеющая стандартное нормальное распределение, примет значение, превышающее.

Если мы возьмем какоенибудь число в пределах от до,, и выделим интервал то получим следующую картину:

Из симметрии функции плотности нормального распределения вытекает равенство площадей областей, заштрихованных на последнем рисунке. Но площадь правой заштрихованной области равна ; следовательно, такова же и площадь левой заштрихованной области. Это, в частности, означает, что вероятность того, что случайная величина примет значение, не превышающее, равна, так что Часть площади под кривой стандартной нормальной плотности, лежащая в пределах выделенного интервала, меньше единицы на сумму площадей заштрихованных областей («хвостов»), т. е. равна Эта величина равна вероятности того, что случайная величина, имеющая стандартное нормальное распределение, примет значение в пределах указанного интервала [2 Заметим, что в этом и других подобных выражениях знак Ј можно свободно заменять знаком <, а знак і знаком > (и обратно), поскольку мы всегда предполагаем существование функции плотности распределений рассматриваемых случайных величин.]:

Но ранее мы установили, что стандартное нормальное распределение имеет случайная величина Поэтому для этой случайной величины справедливо соотношение так что с вероятностью, равной, выполняется двойное неравенство т. е.

Иными словами, с вероятностью, равной 1a, случайный интервал накрывает истинное значение коэффициента q j. Такой интервал называется доверительным интервалом для q j с уровнем доверия (доверительной вероятностью) 1a, или (1a)доверительным интервалом, или 100(1a)процентным доверительным интервалом для q j.

Последний рисунок был получен при значении a = 0.05. Поэтому площади заштрихованных областей («хвосты») равны 0.025, сумма этих площадей равна 0., и площадь области под кривой в пределах интерваларавна 10.05 = 0.95.

Остается заметить, что так что случайный интервал является 95%доверительным интервалом для q j. Его длина пропорциональна — среднеквадратической ошибке (среднеквадратическому отклонению) оценки коэффициента q j.





Хотелось бы, конечно, прямо сейчас построить доверительные интервалы для коэффициентов линейной модели по какимнибудь реальным статистическим данным.

Однако этому препятствует то обстоятельство, что в выражения для дисперсий входит не известное нам значение s 2.

2.6. ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ ДЛЯ КОЭФФИЦИЕНТОВ: РЕАЛЬНЫЕ СТАТИСТИЧЕСКИЕ ДАННЫЕ Итак, практическому построению доверительных интервалов для коэффициентов нормальной модели линейной множественной регрессии с ~ i. i. d. препятствует вхождение в выражения для дисперсий неизвестного значения s 2.

Единственный выход из этого положения — заменить неизвестное значение s какойнибудь подходящей его оценкой (estimate), которую можно было бы вычислить на основании имеющихся статистических данных. Такого рода оценки принято называть статистиками (statistics).

В данной ситуации такой подходящей оценкой для неизвестного значения является статистика Поскольку сумма является квадратичной функцией от случайных величин, то она является случайной величиной, а следовательно, случайной величиной является и статистика S2. Математическое ожидание этой случайной величины равно :

т. е. — несмещенная оценка для.

Замечание. В частном случае модель наблюдений принимает вид (случайная выборка из распределения N (q1,s2)). Несмещенной оценкой для служит Оценкой наименьших квадратов для параметра является, так что, и Таким образом, выборочная дисперсия переменной, получаемая делением именно на (а не на ), является несмещенной оценкой для в модели случайной выборки из нормального распределения, имеющего дисперсию. Этим и объясняется сделанный нами выбор нормировки при определении выборочных дисперсий и ковариаций.

При выполнении стандартных предположений отношение имеет стандартное распределение, называемое распределением хиквадрат с (np) степенями свободы. Такое же распределение имеет сумма квадратов случайных величин, независимых в совокупности и имеющих одинаковое стандартное нормальное распределение. При график функции плотности этого распределения имеет вид Для обозначения распределения хиквадрат с K степенями свободы используют символ c2(K).

Итак, мы не знаем истинного значения и поэтому в попытке построить доверительный интервал для вынуждены заменить неизвестное нам значение на его несмещенную оценку Соответственно, вместо отношения приходится использовать отношение Однако последнее отношение как случайная величина уже не имеет стандартного нормального распределения, поскольку в знаменателе теперь стоит не постоянная, а случайная величина.

Тем не менее, распределение последнего отношения также относят к стандартным, и оно известно под названием tраспределения Стьюдента с (np) степенями свободы.

Для распределения Стьюдента с K степенями свободы принято обозначение t (K).

Квантиль уровня р такого распределения будем обозначать символом tp (K). График функции плотности распределения Стьюдента симметричен относительно нуля и похож на график функции плотности нормального распределения. Например, при K=10 он имеет следующий вид (левый график).

Для сравнения, справа приведен график функции стандартного нормального распределения. Отличие графиков столь невелико, что визуально они почти неразличимы. Квантили этих двух распределений различаются более ощутимо:

Распределение Стьюдента имеет более тяжелые хвосты. Из приведенных значений квантилей следует, например, что случайная величина, имеющая стандартное нормальное распределение, может превысить значение 1.645 лишь с вероятностью 0.05. В то же самое время, с такой же вероятностью 0.05 случайная величина, имеющая распределение Стьюдента с 10 степенями свободы, принимает значения, большие, чем 1.812.

Впрочем, для значений квантили распределения Стьюдента практически совпадают с соответствующими квантилями cтандартного нормального распределения.

Итак, ~.

Поэтому для этой случайной величины выполняется соотношение так что с вероятностью, равной, выполняется двойное неравенство т. е.

Pages:     | 1 |   ...   | 6 | 7 || 9 | 10 |   ...   | 18 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.