WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 || 3 | 4 |   ...   | 18 |

В нашем примере n = 17, и диаграмма рассеяния имеет вид Рис. 1. Вытянутость облака точек на диаграмме рассеяния вдоль наклонной прямой позволяет сделать предположение о том, что существует некоторая объективная тенденция линейной связи между значениями переменных и, выражаемой соотношением где — уровень безработицы среди цветного, а — среди белого населения. В то же время, указанное соотношение выражает всего лишь тенденцию: реально наблюдаемые значения отличаются от значений на величину так что Последнее соотношение определяет линейную модель наблюдений, тогда как соотношение определяет линейную модель связи между рассматриваемыми переменными.

Заметим, однако, что видимая степень проявления вытянутости облака точек на диаграмме рассеяния (при наличии линейной связи между переменными) существенно зависит от выбора единиц измерения переменных и. Поэтому, вопервых, желательно при построении диаграммы выбирать масштабы и интервалы изменения переменных таким образом, чтобы диаграмма имела вид квадрата и чтобы на диаграмме имелись точки, достаточно близко расположенные к каждой из четырех границ квадрата. Вовторых, желательно иметь какието числовые характеристики, которые отражали бы действительное наличие вытянутости облака точек вдоль наклонной прямой и не зависели от шкал, в которых представлены значения переменных.

Одна из характеристик такого рода связана с разбиением диаграммы рассеяния горизонтальной и вертикальной прямыми на 4 прямоугольника.

Разбивающие диаграмму прямые (секущие) проводятся через точку так что если точка лежит правее вертикальной секущей, то отклонение имеет знак плюс, а если левее, то знак минус. Аналогично, если точка лежит выше горизонтальной секущей, то отклонение имеет знак плюс, а если она расположена ниже этой секущей, то знак минус (см. Рис. 1.4).

Рис. 1. Пусть — количество таких точек среди, для которых и (верхний правый прямоугольник); — количество точек, для которых и (нижний правый прямоугольник); — количество точек, для которых и (верхний левый прямоугольник); количество точек, для которых и (нижний левый прямоугольник).

В нашем примере,,, (точки, соответствующие наблюдениям с номерами 6 и 17, имеют совпадающие координаты), (точки, соответствующие наблюдениям с номерами 9 и 10, имеют совпадающие координаты), так что количество точек с совпадающими знаками отклонений и равно, а количество точек, у которых знаки отклонений различны, равно.

Количество точек с совпадающими знаками отклонений от средних значений составляет 10/17=0.59, т. е. около 59% общего числа точек, и это служит некоторым указанием на наличие вытянутости облака точек в направлении прямой, имеющей положительный угловой коэффициент. Если бы большинство составляли точки с противоположными знаками отклонений от средних значений, то это служило бы объективным указанием на наличие вытянутости облака точек в направлении прямой, имеющей отрицательный угловой коэффициент. Последняя ситуация часто наблюдается при рассмотрении зависимости спроса на товар от его цены.

Более распространенным является определение степени выраженности линейной связи между произвольными переменными и, принимающими значения и,, посредством (выборочного) коэффициента корреляции (sample correlation coefficient) Величина стоящая в числителе, определяется соотношением и называется (выборочной) ковариацией переменных и, так что, формально, Если указанная тенденция выражена на диаграмме рассеяния довольно ясно, то значения по абсолютной величине близки к единице (т. е. значения близки к +1 или к –1). Если же наличие линейной тенденции связи обнаруживается на диаграмме рассеяния с трудом, то тогда значения близки к нулю. Как мы увидим позднее, значения уже не зависят от выбора шкал измерения переменных и (если, конечно, эти шкалы линейны).

В нашем примере,,, откуда находим т. е. получаем значение, расположенное приблизительно посередине между 0 и 1.

Замечание Мы определили Var и Cov, деля соответствующие суммы квадратов на n1. Это имеет свое объяснение, которое пока выходит за рамки нашего обсуждения. Вместе с тем, в разных руководствах по эконометрике Var и Cov определяются поразному.



Деление на n 1 используется, например, в книгах Доугерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книге Магнуса, Катышева и Пересецкого (1997) соответствующие суммы квадратов делятся не на n 1, а на n. К счастью, и Cov и Var будут играть у нас лишь вспомогательную роль, а величина более существенного для нас коэффициента корреляции rxy не зависит от того, каким из двух способов мы будем определять Var и Cov, лишь бы только при определении обеих этих характеристик использовался один и тот же способ.

1.3. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. ПРЯМОЛИНЕЙНЫЙ ХАРАКТЕР СВЯЗИ МЕЖДУ ДВУМЯ ЭКОНОМИЧЕСКИМИ ФАКТОРАМИ Теперь мы обсудим вопрос о том, каким образом можно (хотя бы приблизительно) восстановить гипотетическую линейную связь между переменными, если таковая действительно существует.

Мы уже заметили, что при наличии объективной тенденции поддержания линейной связи между переменными и естественно рассмотреть линейную модель наблюдений Если и — «истинные» значения параметров линейной модели связи, то представляет собой ошибку в м наблюдении (error, или disturbance). Однако, даже при действительном существовании линейной связи, параметры и такой связи остаются неизвестными, и мы можем судить об их истинных значениях лишь приближенно, оценивая значения и на основании ограниченного количества имеющихся данных наблюдений (статистических таблиц).

Поиск подходящих оценок для и можно осуществлять, например, путем поиска на диаграмме рассеяния прямой, проходящей через точку — «центр» системы точек и «наилучшим образом» выражающей направление вытянутости этой системы (облака) точек. Пусть прямая рассматривается в числе прочих в процессе такого поиска. Для го наблюдения мы будем наблюдать тогда расхождение («невязку») причем значения могут быть как положительными, так и отрицательными. При изменении значений и будет изменяться и алгебраическая сумма невязок. С этой точки зрения, мы можем остановить свой выбор на прямой, для которой соблюдается баланс положительных и отрицательных невязок, так что Соответствующие этой прямой значения и будем обозначать как и. Итак, прямая проходит через точку, и если обозначить еще то тогда Значение называется остатком в i м наблюдении. Для реальных данных, как правило, все остатки отличны от нуля, так что часть из них имеет положительный знак, а остальные — отрицательный.

Оказывается, что ту же самую прямую можно получить, исходя из другого принципа — принципа наименьших квадратов. Согласно этому принципу, среди всех возможных значений,, претендующих на роль оценок параметров и, следует выбирать такую пару,, для которой Иначе говоря, выбирается такая пара,, для которой сумма квадратов невязок оказывается наименьшей. Получаемые при этом оценки называются оценками наименьших квадратов, и можно показать, что они совпадают с ранее определенными оценками и, так что Заметим, что при построении оценок наименьших квадратов заранее не требуется, чтобы соответствующая прямая проходила через точку ; этот факт является свойством оценок наименьших квадратов. Наличие такого свойства мы докажем чуть позднее, а сейчас обратимся к вопросу о том, как практически найти указанные оценки и.

Если исходить из первого определения, то прежде всего следует заметить, что если прямая проходит через точку, то тогда, так что и для поиска «наилучшей» прямой достаточно определить ее угловой коэффициент.

Изменяя значения и следя за изменением значений, мы можем, в принципе, найти искомое с любой наперед заданной точностью.

Использование непосредственного перебора значений, с целью минимизации суммы квадратов при реализации метода наименьших квадратов также возможно, хотя и требует, конечно, существенно больших вычислительных усилий.

Было бы идеальным, если бы существовала возможность прямого вычисления значений и по какойнибудь формуле на основании известных значений. Такую возможность нам предоставляет еще один подход к поиску параметров, «наилучшей» прямой.





Заметим, что через каждую пару точек на диаграмме рассеяния можно провести прямую. Всего таких прямых (с учетом совпадающих точек) будет ровно столько, сколько различных пар индексов можно образовать на основе индексов. А количество таких пар индексов равно числу сочетаний из элементов по два. Из комбинаторной математики известно, что последняя величина равна. Пусть прямая, проходящая через ю пару точек, имеет вид а точки, через которые она проводится, имеют абсциссы и, соответственно.

Обратимся опять к диаграмме рассеяния. Из этой диаграммы видно, что параметры и будут очень сильно отличаться для различных пар, и для многих пар не будут иметь ничего общего с параметрами, «наилучшей» прямой. Оказывается, однако, что эти значения и можно получить как взвешенные суммы значений параметров отдельных прямых:

где и веса имеют вид Нетрудно заметить, что большие веса придаются тем прямым, которые строятся по точкам с далеко разнесенными абсциссами.

Итак, мы имеем возможность получать оценки наименьших квадратов чисто аналитически, сначала вычисляя параметры отдельных прямых, а затем взвешивая полученные значения. Однако, существует еще один способ получения точных формул для и, исходящий из принципа наименьших квадратов.

Согласно этому принципу, оценки и находятся путем минимизации суммы квадратов по всем возможным значениям и при заданных (наблюдаемых) значениях. Функция как функция двух переменных описывает поверхность в трехмерном пространстве с прямоугольной системой координат, и дело сводится к известной математической задаче поиска точки минимума функции двух переменных.

Такая точка находится путем приравнивания нулю частных производных функции по переменным и, т. е. приравниванием нулю производной функции как функции только от при фиксированном, и производной функции как функции только от при фиксированном, Это приводит к так называемой системе нормальных уравнений решением которой и является пара,. Остается заметить, что согласно правилам вычисления производных, так что искомые значения, удовлетворяют соотношениям Эту систему двух уравнений можно записать также в виде Последняя система является системой двух линейных уравнений с двумя неизвестными и может быть легко решена, например, методом подстановки.

Из первого уравнения системы находим:

так что точка действительно лежит на прямой. Подстановка полученного выражения для во второе уравнение системы дает откуда Заметим еще, что Последние соотношения позволяют получить более употребительную форму записи выражения для (в отклонениях от средних значений) которая в паре с выражением дает явное и простое решение задачи отыскания оценок, на основе принципа наименьших квадратов.

Разумеется, такое решение может существовать только при выполнении условия что равносильно отличию от нуля определителя системы. Действительно, этот определитель равен Последнее условие называется условием идентифицируемости модели наблюдений, и означает попросту, что не все значения совпадают между собой. При нарушении этого условия все точки, лежат на одной вертикальной прямой Оценки и обычно называют оценками наименьших квадратов (least squares estimates), или LS — оценками. Обратим еще раз внимание на полученное выражение для. Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии и выборочной ковариации так что, в этих терминах, Отсюда, в частности, видно, что значения близки к нулю, если ковариация между наблюдаемыми значениями переменных и близка к нулю. (Однако, близость к нулю здесь следует понимать как относительную, с учетом реальных значений выборочной дисперсии.) Кроме того, знак совпадает со знаком ковариации, поскольку.

Вычисление значений и для нашего примера дает значения Таким образом, «наилучшая» прямая имеет вид и мы принимаем ее в качестве аппроксимации для «истинной» модели линейной связи между переменными и. Эта аппроксимация указывает на то, что при изменении переменной на единицу (измерения ) переменная изменяется «в среднем» на единиц (измерения ).

Pages:     | 1 || 3 | 4 |   ...   | 18 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.