WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 | 2 || 4 | 5 |   ...   | 18 |

Факт горизонтальности прямой при и наличие у этой прямой наклона при, позволяют произвести некоторую детализацию структуры остатков С этой целью, опять рассмотрим диаграмму рассеяния, сосредоточившись на какойнибудь одной точке. Пусть в нашем примере это точка A = (7.1, 3.3). Опустим из этой точки перпендикуляр на ось абсцисс. Он пересечет прямую в точке B = (7.1, 3.118) и прямую в точке C = (7.1, 3.183), так что расстояние по вертикали от точки A до прямой, равное AB = 3.3 — 3.118= 0.182, раскладывается в сумму Отсюда находим, что расстояние по вертикали от точки A до прямой равно AC = AB — CB = 0.182 — (3.183 — 3.118) = 0.117.

Вообще, для любой точки на диаграмме рассеяния можно записать:

где ордината точки «наилучшей» прямой, имеющей абсциссу. Возведем обе части последнего представления в квадрат и просуммируем левые и правые части полученных для каждого i равенств:

Входящая в правую часть сумма называется чаще всего остаточной суммой квадратов (residual sum of squares) и имеет аббревиатуру RSS (Доугерти, АйвазянМхитарян, Себер), хотя в литературе по эконометрике можно встретить и такие варианты аббревиатур как SSR (Green), а также ESS (error sum of squares — Harvey, Chatterjie) и SSE (МагнусКатышевПересецкий). Поэтому, при чтении различных руководств по эконометрике следует обратить особое внимание на то, какие именно термины и обозначения используются авторами.

Заметим, что если, то и. Следовательно, при При, по самому определению прямой, имеем Тенденция линейной связи между и выражена в максимальной степени, если. При этом, все точки, i = 1, 2,..., n, располагаются на одной прямой. Тенденция линейной связи между переменными и не обнаруживается вовсе, если совпадает с Таким образом, есть определенные основания предложить в качестве «меры выраженности» в данных наблюдений линейной связи между переменными величину называемую коэффициентом детерминации. Этот коэффициент изменяется в пределах от (при, т. е. ) до (при ), Вернемся, однако, к полученному ранее представлению в виде и рассмотрим третью сумму в правой части этого представления. Имеем:

Но (см. первое уравнение из системы нормальных уравнений). К тому же, (см. второе уравнение из системы нормальных уравнений). Таким образом, и, следовательно, справедливо представление так что т. е. получено второе представление для в виде Стоящую здесь в числителе сумму квадратов мы будем называть суммой квадратов, объясненной моделью (explained sum of squares), и будем использовать для ее обозначения аббревиатуру ESS, так что Сумму квадратов, стоящую в знаменателе, будем называть полной суммой квадратов (total sum of squares) и будем использовать для ее обозначения аббревиатуру TSS, так что Напомним также, что нами уже была определена остаточная сумма квадратов Все эти три суммы квадратов связаны соотношением которое представляет собой разложение полной суммы квадратов на сумму квадратов, объясненную моделью, и остаточную сумму квадратов. Используя эти три суммы, мы находим также, что Таким образом, значение R2 тем выше, чем больше доля объясненной моделью суммы квадратов ESS по отношению к полной сумме квадратов TSS.

Термины «полная» и «объясненная моделью» суммы квадратов имеют следующее происхождение. Полная сумма квадратов соответствует значению RSS в ситуации, когда и «наилучшая» прямая имеет вид, отрицающий наличие линейной зависимости от. Вследствие этого, привлечение информации о значениях переменной не дает ничего нового для объяснения изменений значений от наблюдения к наблюдению.

Степень этой изменчивости мы уже характеризовали значением выборочной дисперсии при этом, и.

В ситуации, когда, мы имеем нетривиальное представление с, и поэтому можно записать:

Но где — переменная, принимающая в i м наблюдении значение. (Здесь мы использовали тот факт, что так что и.) К тому же, где — переменная, принимающая в i м наблюдении значение. (Здесь мы использовали тот факт, что.) В итоге, мы получаем разложение показывающее, что изменчивость переменной (степень которой характеризуется значением ) частично объясняется изменчивостью переменной (степень которой характеризуется значением ). Не объясненная переменной часть изменчивости переменной соответствует изменчивости переменной (степень которой характеризуется значением ).



Таким образом, вспомогательная переменная берет на себя объяснение некоторой части изменчивости значений переменной, и эта объясненная часть будет тем больше, чем выше значение коэффициента детерминации, который мы теперь можем записать также в виде Поскольку переменная получается линейным преобразованием переменной, то изменчивость однозначно связана с изменчивостью, так что, в конечном счете, построенная модель объясняет часть изменчивости переменной изменчивостью переменной. Поэтому, принять говорить в таком контексте о переменной как об объясняемой переменной, а о переменной — как об объясняющей переменной.

Вернемся опять к нашему примеру. В этом примере ESS = 0. RSS = 0. TSS = 0.204705, так что = 0.043474/16 = 0.002717, = 0.161231/16 = 0.010077, = 0.012784, = 0.043474/0.204705 = 0.212374.

Значение коэффициента детерминации оказалось достаточно малым, и один из последующих вопросов будет состоять в том, сколь близким к нулю должно быть значение R2, чтобы мы могли говорить о практическом отсутствии линейной связи между переменными.

1.4. СВОЙСТВА ВЫБОРОЧНОЙ КОВАРИАЦИИ, ВЫБОРОЧНОЙ ДИСПЕРСИИ И ВЫБОРОЧНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Вернемся теперь к определению выборочной ковариации и отметим некоторые ее свойства.

Пусть — некоторая постоянная, а — переменные, принимающие в м наблюдении значения, (n — количество наблюдений). Тогда можно рассматривать как переменную, значения которой в м наблюдении равно, и так что Далее, очевидно, что и что Кроме того, так что Наконец, так что На основе этих свойств, в частности, находим, что (постоянная не обладает изменчивостью), (при изменений единицы измерения переменной в раз, во столько же раз изменяется и величина стандартного отклонения этой переменной), (сдвиг начала отсчета не влияет на изменчивость переменной).

Наконец, т. е.

(дисперсия суммы двух переменных отличается от суммы дисперсий этих переменных на величину, равную удвоенному значению ковариации между этими переменными).

Что касается выборочного коэффициента корреляции, то если изменяются начало отсчета и единица измерения, скажем, переменной, так что вместо значений мы получаем значения переменной, то тогда Иными словами, выборочный коэффициент корреляции, инвариантен относительно выбора единиц измерения и начала отсчета переменных и.

В то же время, этого нельзя сказать об оценке коэффициента в модели наблюдений. Действительно, если, скажем, мы переходим к новой единице измерения переменной, так что вместо значений наблюдаются значения переменной, то тогда оценка коэффициента в модели наблюдений равна Таким образом, изменяя единицу измерения переменной (или переменной ), мы можем получать существенно различные значения, от сколь угодно малых до сколь угодно больших. (Желательно выбирать единицы измерения таким образом, чтобы сравниваемые переменные имели одинаковый порядок.) Близость значений к нулю всегда должна интерпретироваться с оглядкой на используемые единицы измерения переменных и.

Отметим, в этой связи, полезное представление в виде Действительно, откуда и вытекает указанное представление. Из этого представления получаем, в частности, что при Var (x) = Var (y) имеет место равенство, и тогда выраженность линейной связи между и непосредственно отражается в близости значения к или.

Рассмотрим теперь коэффициент корреляции между переменными и, где, а и — оценки наименьших квадратов параметров и гипотетической линейной связи между переменными и. Замечая, что (т.к.  по определению), находим:

Но ранее мы уже получили (при выводе разложения для ) соотношение которое, с учетом соотношения, приводит к равенству левая часть которого есть не что иное как Следовательно, так что Последнее соотношение показывает, что коэффициент детерминации равен квадрату коэффициента корреляции между переменными и, так что при достаточно сильно выраженной линейной связи между переменными и, что соответствует значению, близкому к, оказывается близким к и коэффициент корреляции между переменными и.

По причинам, которые будут ясны из дальнейшего рассмотрения, называют множественным коэффициентом корреляции (multipleR, множественныйR).





Отметим также, что переменная измеряется в тех же единицах, что и переменная, и при изменении масштаба измерения переменной значение не изменяется. Отсюда вытекает, что коэффициент детерминации R2 инвариантен относительно изменения масштаба и начала отсчета переменных и.

Заметим, наконец, что (здесь sign(z)=1 для z<0, sign(z)=0 для z=0, sign(z)=1 для z>0) Поскольку же то и так что и мы можем установить значение R2 еще до построения модели линейной связи.

Замечание Если, то и ; если, то и, так что всегда 1.5. «ОБРАТНАЯ» МОДЕЛЬ ПРЯМОЛИНЕЙНОЙ СВЯЗИ Пусть наша задача состоит в оценивании модели прямолинейной связи между некоторыми переменными и на основе наблюдений n пар значений этих переменных.

Мы уже рассмотрели вопрос об оценивании параметров такой связи, исходя из модели наблюдений. Что изменится, если мы будем исходить из «обратной» модели ? Пусть — оценки параметров и в модели наблюдений, а — оценки параметров в модели наблюдений. Тогда т. е.

или В то же время, по первой модели наблюдений мы получаем наилучшую прямую а по второй — прямую Первую прямую мы можем записать в виде Сравнивая коэффициенты при в двух последних уравнениях, находим, что эти коэффициенты равны в том и только в том случае, когда выполнено соотношение т. е.

или, с учетом предыдущего, когда.

Что касается отрезков на осях, то они будут совпадать тогда и только тогда, когда или Но так что При получаем В то же время, так что при совпадают и отрезки на осях, т. е. наилучшая прямая одна и та же при обеих моделях наблюдений, и это есть прямая, на которой расположены все наблюдаемые точки Иными словами, наилучшие прямые, построенные по двум альтернативным моделям, совпадают в том и только в том случае, когда все точки, расположены на одной прямой (так что ); при этом,. В противном случае,и подобранные «наилучшие» прямые имеют разные угловые коэффициенты.

Кстати, в рассмотренном нами примере с уровнями безработицы, диаграмма рассеяния с переставленными осями (соответствующими модели наблюдений ) имеет вид Рис. Количество точек с совпадающими знаками отклонений координат от средних значений равно 10 (4+ 6, с учетом совпадений), а число точек с противоположными знаками отклонений координат от средних значений равно 7 (4+3, с учетом совпадений). Соответственно, «облако точек» имеет некоторую вытянутость вдоль наклонной прямой, проведенной через «центр» облака. «Наилучшая» прямая имеет вид коэффициент детерминации равен Произведение угловых коэффициентов 0.125265 и 1.695402 наилучших прямых в «прямой» и «обратной» моделях наблюдений равно 0.212374 и совпадает со значением R2.

Отметим, что несовпадение наилучших прямых, конечно, связано с тем, что в этих двух альтернативных моделях наблюдений мы минимизировали различные суммы квадратов: в «прямой» модели мы минимизировали сумму квадратов отклонений точек от подбираемой прямой в направлении, параллельном оси, а во втором — в направлении, параллельном оси.

1.6. ПРОПОРЦИОНАЛЬНАЯ СВЯЗЬ МЕЖДУ ПЕРЕМЕННЫМИ Хотя на практике не рекомендуется отказываться от включения свободного члена в уравнение подбираемой прямолинейной связи, если только его отсутствие не обосновывается надежной теорией (как в физике — закон Ома), мы все же иногда сталкиваемся с необходимостью подбора прямой, проходящей через начало координат. Позднее мы приведем соответствующие примеры.

Итак, пусть мы имеем наблюдения, и предполагаем, что гипотетическая линейная связь между переменными и имеет вид (пропорциональная связь между переменными), так что ей соответствует модель наблюдений.

Применение метода наименьших квадратов в этой ситуации сводится к минимизации суммы квадратов невязок по всем возможным значениям. Последняя сумма квадратов является функцией единственной переменной (при известных значениях ), и точка минимума этой функции легко находится. Для этого мы приравниваем нулю производную по :

(нормальное уравнение) откуда получаем:

или Отсюда видно, что при таком подборе и точка уже не лежит, как правило, на подобранной прямой Более того, в такой ситуации где и поэтому использовать для вычисления коэффициента детерминации выражение не имеет смысла. В этой связи полезно рассмотреть следующий искусственный пример.

Pages:     | 1 | 2 || 4 | 5 |   ...   | 18 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.