WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 11 | 12 || 14 | 15 |   ...   | 18 |

При наших стандартных предположениях о линейной модели наблюдений ошибка прогноза является случайной величиной, имеющей математическое ожидание (Мы использовали здесь справедливые при выполнении стандартных предположений соотношения ) Точность прогноза характеризуется дисперсией ошибки прогноза Здесь использован тот факт, что сумма неслучайна (хотя ее точное значение и не известно). Далее, из предположенной независимости случайных ошибок и вытекает независимость случайных величин (эта величина зависит от случайных ошибок ) и (последняя не зависит от случайных ошибок ). В силу же независимости и, (использовано правило сложения дисперсий). Остается заметить, что где, как обычно, (Мы не будем выводить эту формулу.) Таким образом, Если случайные ошибки имеют нормальное распределение, то тогда случайные величины и также имеют нормальные распределения. При этом, ошибка прогноза имеет нормальное распределение с нулевым математическим ожиданием и дисперсией, вычисляемой по последней формуле.

Разделив разность на квадратный корень из ее дисперсии, получаем случайную величину имеющую стандартное нормальное распределение. Заменяя в правой части выражения для неизвестное значение его несмещенной оценкой, получаем оценку дисперсии в виде Заменяя, наконец, в знаменателе отношения, имеющего стандартное нормальное распределение, неизвестное значение его оценкой, приходим к статистике (отношению) имеющей при выполнении сделанных предположений о модели наблюдений распределение Стьюдента с степенями свободы.

Последний факт дает возможность построения процентного доверительного интервала для значения а именно, на основании которого получаем процентный доверительный интервал для :

— здесь мы использовали то, что в силу симметрии распределения Стьюдента,.

Заметим, что при заданных значениях (по которым строится прогноз) доверительный интервал для будет тем длинее, чем больше значение. Последнее же равно при и возрастает с ростом. Это означает, что длина доверительного интервала возрастает при удалении значения, при котором строится прогноз, от среднего арифметического значений.

Таким образом, прогнозы для значений, далеко отстоящих от, становятся менее определенными, поскольку длина соответствующих доверительных интервалов для значений объясняемой переменной возрастает.

Пример. Для данных о размерах совокупного располагаемого дохода и совокупных расходах на личное потребление в США в период с 1970 по 1979 год (в млрд.

долларов, в ценах 1972 года), оцененная модель линейной связи имеет вид.

Представим себе, что мы находимся в 1979 году и ожидаем увеличения в 1980 году совокупного располагаемого дохода (в тех же ценах) до млрд. долларов. Тогда прогнозируемый по подобранной модели объем совокупных расходов на личное потребление в 1980 году равен так что если выбрать уровень доверия, то и доверительный интервал для соответствующего значения имеет вид т. е.

или Заметим, что интервал достаточно широк и его нижняя граница допускает даже возможность некоторого снижения уровня потребления по сравнению с предыдущим годом.

В действительности, в 1980 г. совокупный располагаемый доход достиг 1021 млрд.

долларов, а совокупное потребление — 931.8 млрд. долларов. Тем самым, ошибка прогноза составила Если бы мы исходили при прогнозе из действительного значения, а не из, то прогнозируемое значение для равнялось бы 931.94 и ошибка прогноза составила всего лишь Проиллюстрируем, наконец, как изменяется в этом примере длина 95%доверительных интервалов в интервале наблюдавшихся значений объясняющей переменной. На графике приведены отклонения нижней и верхней границ таких интервалов от центра интервала:

В случае модели множественной линейной регрессии точечный прогноз значения соответствующего фиксированному набору значений объясняющих переменных, дается формулой где — оценки наименьших квадратов параметров. Интервальный прогноз имеет вид где оценка дисперсии ошибки прогноза, а несмещенная оценка дисперсии случайных ошибок.

ЧАСТЬ 3. ПРОВЕРКА ВЫПОЛНЕНИЯ СТАНДАРТНЫХ ПРЕДПОЛОЖЕНИЙ ОБ ОШИБКАХ В ЛИНЕЙНОЙ МОДЕЛИ НАБЛЮДЕНИЙ. КОРРЕКЦИЯ СТАТИСТИЧЕСКИХ ВЫВОДОВ ПРИ НАРУШЕНИИ СТАНДАРТНЫХ ПРЕДПОЛОЖЕНИЙ ОБ ОШИБКАХ 3.1. ПРОВЕРКА АДЕКВАТНОСТИ ПОДОБРАННОЙ МОДЕЛИ ИМЕЮЩИМСЯ СТАТИСТИЧЕСКИМ ДАННЫМ:



ГРАФИЧЕСКИЕ МЕТОДЫ Весь рассмотренный нами комплекс процедур получения статистических выводов для линейной модели регрессии (простой или множественной) опирается на вполне определенные предположения о модели наблюдений.

В связи с этим, большие значения коэффициента детерминации (близкие к 1) или статистическая значимость коэффициентов вовсе не обязательно говорят о том, что подобранная модель действительно хорошо соответствует характеру статистических данных (адекватна статистическим данным).

В этом отношении весьма поучителен искусственный пример с четырьмя различными множествами данных, которые имеют качественно различные диаграммы рассеяния и в то же время приводят при использовании модели наблюдений к одним и тем же (в пределах двух знаков после запятой) оценкам параметров, значениям коэффициента и статистик. Эти множества данных приведены в следующей таблице.

Множество Множество Множество Множество i x y x y x y x y 16. 18. 14. 13. 13. 16. 13. 11. 15. 17. 25. 15. 17. 17. 14. 17. 16. 18. 15. 17. 19. 16. 17. 14. 14. 12. 12. 10. 8. 6. 10. 25. 21. 18. 16. 11. 9. 14. 12. 15. 11. 9. 11. 17. Для всех четырех множеств подобранная модель линейной связи имеет вид, имеет (оцененную) стандартную ошибку имеет (оцененную) стандартную ошибку статистика для проверки нулевой гипотезы равна 2.67, что соответствует значению 0.026, статистика для проверки нулевой гипотезы равна 4.24, что соответствует значению 0.002,.

Однако диаграммы рассеяния различаются коренным образом:

Уже чисто визуальный анализ четырех диаграмм рассеяния показывает, что только первое множество данных можно признать удовлетворительно описываемым линейной моделью наблюдений Для второго множества более подходящей представляется модель В третьем множестве выделяется одна точка (3е наблюдение), которая существенно влияет на наклон и положение подбираемой прямой.

Четвертое множество совершенно непригодно для подбора линейной зависимости, поскольку подобранная прямая фактически определяется наличием одного выпадающего наблюдения Метод наименьших квадратов достаточно устойчив к малым отклонениям от стандартных предположений, в том смысле, что при таких малых отклонениях статистические выводы на основе анализа модели в основном сохраняются. Однако существенные отклонения от стандартных предположений могут серьезно исказить выводы на основе статистического анализа модели. В связи с этим необходимо иметь возможность обнаружения отклонений от стандартных предположений, иметь инструментарий для коррекции выявленных отклонений от стандартных предположений, позволяющий проводить строгий и информативный анализ статистических данных.

Эффективным средством обнаружения отклонений от стандартных предположений о линейной модели наблюдений является анализ остатков, т. е. анализ разностей Наблюдаемые разности мы, в силу случайности значений в модели наблюдений, можем рассматривать как значения соответствующих случайных величин, за которыми сохраним те же обозначения.

Если выполнены наши стандартные предположения о модели наблюдений, то остатки, рассматриваемые как случайные величины, имеют нулевые математические ожидания и дисперсии где — й диагональный элемент квадратной матрицы Таким образом, несмотря на то, что дисперсии ошибок равны между собой при наших предположениях (все они равны ), дисперсии остатков, вообще говоря, различны.

Для выравнивания дисперсий можно перейти к рассмотрению нормированных остатков для которых Поскольку значение опять не известно, вместо нормированных остатков приходится использовать «стьюдентизированные» остатки где, как обычно,.

Во многих пакетах программ величины в знаменателе правой части выражения для игнорируются, что приводит к так называемым «стандартизованным» остаткам так сделано, например, в пакете EXCEL. Практический анализ показывает, что графики остатков и обычно мало отличаются по характеру поведения. Поэтому для предварительного графического анализа адекватности вполне можно удовлетвориться значениями. К тому же, можно показать, что ( — количество объясняющих переменных), так что если ( много меньше ), то «в среднем» значения достаточно малы.

Графики стандартизованных (стьюдентизированных) остатков позволяют выявлять типичные отклонения от стандартных предположений о модели наблюдений по характеру поведения остатков. При этом имеется в виду, что, по крайней мере при большом количестве наблюдений, поведение остатков, должно имитировать поведение ошибок. Иначе говоря, поскольку мы предполагаем, что ошибки — независимые в совокупности случайные величины, имеющие одинаковое нормальное распределение, то ожидаем, что поведение последовательности остатков должно имитировать поведение последовательности независимых в совокупности случайных величин, имеющих одинаковое нормальное распределение. Соответственно, от стандартизованных остатков можно было бы ожидать поведения, похожего на поведение последовательности независимых в совокупности случайных величин, имеющих одинаковое стандартное нормальное распределение.





Строго говоря, последнее ожидание не вполне верно. Именно, хотя стандартизованные остатки и имеют распределения, близкие (хотя бы при больших ) к стандартному нормальному, они не являются взаимно независимыми случайными величинами. Это можно понять хотя бы из того, что (как мы помним) при использовании оценок наименьших квадратов алгебраическая сумма остатков равна нулю, так что каждый остаток линейно выражается через остальные остатки. Тем не менее при большом количестве наблюдений наличие такого соотношения между остатками практически не делает картину поведения стандартизованных остатков скольнибудь существенно отличной от поведения последовательности независимых в совокупности случайных величин, имеющих одинаковое стандартное нормальное распределение.

Наиболее часто для диагностики (проверки на наличие) типичных отклонений используют графики зависимости стандартизованных остатков (как ординат) от оцененных значений ;

отдельных объясняющих переменных;

номера наблюдения, если наблюдения производятся в последовательные моменты времени с равными интервалами.

График зависимости от позволяет выявлять три довольно распространенных дефекта модели:

Выделяющиеся наблюдения (outliers) — наличие отдельных наблюдений, для которых либо математическое ожидание ошибки существенно отличается от нуля либо дисперсия ошибки существенно превышает величину дисперсий остальных ошибок.

Подобные наблюдения могут обнаруживать себя на указанном графике как наблюдения со «слишком большими» по абсолютной величине остатками. Такая ситуация возникает, например, при подборе прямой по третьему (из четырех рассматривавшихся выше) множеству данных:

Неоднородность дисперсий (heteroscedasticity), например, в форме той или иной функциональной зависимости от величины. Так, если рассматриваемый график имеет вид то это скорее всего отражает возрастание дисперсий ошибок с ростом значений.

Неправильная спецификация модели в отношении множества объясняющих переменных, приводящая к нарушению соотношения, так что. Такая ситуация возникает, например, при оценивании второго множества данных из четырех рассматривавшихся выше:

График зависимости от значений й объясняющей переменной полезен для выявления нелинейной зависимости от й объясняющей переменной. Например, для второго из четырех искусственных множеств данных имеем График зависимости остатков от номера наблюдения полезен в случае, когда наблюдения производятся последовательно во времени (через равные интервалы времени). По такому графику можно обнаружить Изменение дисперсии ошибок с течением времени Невключение в модель переменных, зависящих от времени и существенно влияющих на объясняемую переменную:

Невыполнение условия независимости в совокупности случайных ошибок в форме их автокоррелированности. Более подробно о такой форме статистической зависимости между случайными ошибками мы поговорим позднее, а сейчас продемонстрируем, как выглядят графики остатков в случае положительной автокоррелированности (левый график) и в случае отрицательной автокоррелированности (правый график):

В первом случае проявляется тенденция сохранения знака остатка при переходе к следующему наблюдению (за положительным остатком скорее следует также положительный остаток, а за отрицательным — отрицательный). Во втором случае проявляется тенденция смены знака остатка при переходе к следующему наблюдению (за положительным остатком скорее следует отрицательный остаток, а за отрицательным — положительный).

Pages:     | 1 |   ...   | 11 | 12 || 14 | 15 |   ...   | 18 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.