Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений


Скачать 195.56 Kb.
НазваниеЛабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений
Дата публикации21.07.2013
Размер195.56 Kb.
ТипЛабораторная работа
userdocs.ru > Математика > Лабораторная работа
дисциплина «Статистика»

Лабораторная работа №7

ТЕМА 7: СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ


Методические указания и решение типовой задачи

Уравнение регрессии – это уравнение, которое дает наилучшее приближение к исходным данных.

В зависимости от уравнения регрессии различают:

    • Простую регрессию: один фактор и один результирующий показатель (например, зависимость выручки от рекламы);

    • Множественную регрессию: несколько факторов и один результирующий показатель (например, зависимость дебиторской задолженности от выручки от реализации и денежных средств);



    • Линейную регрессию: уравнение представляет собой уравнение прямой. Например, уравнение прямой с угловым коэффициентом .

    • Нелинейную регрессию: (как вы догадались, та, которая не является линейной)

Например, построить простую линейную регрессию между расходами компании на рекламу, тыс. грн. и количеством новых покупателей, тыс. человек.

расходы на рекламу, тыс. грн.

количество новых покупателей, тыс. человек

X

Y

12

1,3

26

3,2

59

5,1

88

6,3

101

8,2

138

9,7

157

10,3

201

11,5

Джон Э. Ханк предложил следующую методику построения простой линейной регрессии:

Первый этап: изучить диаграмму рассеивания исходных данных.



Диаграмма показывает, что имеет место прямая линейная зависимость между переменной Y и переменной Х. Можно сделать вывод, что при росте расходов на рекламу количество новых покупателей вырастет.

^ Второй этап: рассчитать выборочный коэффициент корреляции , который характеризует количественную меру обнаруженной зависимости.



(или функция КОРРЕЛ ( ) в Excel)

если близок к 1, то наблюдается положительная корреляция;

если близок к -1, то отрицательная корреляция;

если близок к 0, то корреляция отсутствует.

Т.е. коэффициент корреляции выявляет не только силу, но и направление линейной связи.

n

X

Y

XY

X2

Y2

1

12

1,3

15,6

144

1,69

2

26

3,2

83,2

676

10,24

3

59

5,1

300,9

3481

26,01

4

88

6,3

554,4

7744

39,69

5

101

8,2

828,2

10201

67,24

6

138

9,7

1338,6

19044

94,09

7

157

10,3

1617,1

24649

106,09

8

201

11,5

2311,5

40401

132,25



782

55,6

7049,5

106340

477,3

Следовательно, r = 0,979487, наблюдается положительная корреляция.

Значение коэффициента корреляции указывает на достаточно сильную прямую зависимость между расходами компании на рекламу и количеством новых покупателей. При этом естественно возникает вопрос: на сколько увеличивается количество новых покупателей при росте расходов компании на рекламу? В данном случае на диаграмму рассеивания требуется провести прямую, проходящую достаточно близко от отмеченных точек. Тогда наклон прямой покажет насколько тыс. чел. в среднем будет увеличиваться количество покупателей при увеличении расходов на рекламу на 1 тыс. грн.

^ Третий этап: построение прямой регрессии.

Для однозначного определения прямой наилучшего приближения чаще всего используется метод наименьших квадратов: «для набора пар данных X-Y в качестве прямой наилучшего приближения будет выбираться такая, для которой наименьшее значение принимает сумма квадратов расстояний от точек (x;y) из заданного набора данных до этой прямой, измеренных в вертикальном направлении (по оси Y). Эта прямая называется прямой регрессии, а ее уравнение – уравнением регрессии» [Ханк, с 259].

Уравнение прямой наилучшего приближения имеет вид , где называется свободным членом, а - угловым коэффициентом.

В соответствии с методом наименьших квадратов , тогда

(или функция НАКЛОН ( ) в Excel)

(или функция ОТРЕЗОК ( ) в Excel)

В нашем случае

b1=

0,054001

b0=

1,671412

Уравнение регрессии имеет вид Y= 1,671412 +0,054001X.



Таким образом, при увеличении расходов на рекламу на 1 тыс. грн. количество покупателей в среднем будет увеличиваться на 0,054 тыс. человек. Однако сказать, что при отсутствии рекламы количество новых покупателей составит 1,671 тыс. человек некорректно. Поскольку «в общем случае неразумно значения Y для тех Х, которые лежат вне множества значений переменной Х, встречающихся в выборке. Функцию регрессии следует считать подходящей аппроксимацией реальной ситуации только в той области, из которой взяты анализируемые данные. Экстраполяция функции возможно только при справедливости достаточно ограничивающего предположения о том, что характер зависимости между Y от Х при этом не изменяется» [Ханк, с 261].

^ Четвертый этап: определение стандартной ошибки оценки.

Чтобы ответить на вопрос: насколько сильно точки исходных данных отклоняются от прямой регрессии, «можно выполнить оценку разброса, аналогичную стандартному отклонению выборки. Этот показатель, называемый стандартной ошибкой оценки, демонстрирует величину отклонения исходных данных от прямой регрессии в направлении оси Y» [Ханк, с 263].

Стандартная ошибка .

«Стандартная ошибка оценки измеряет степень отличия реальных значений Y от оцененной величины . Для сравнительно больших выборок следует ожидать, что около 67% разностей по модулю не будет превышать и около 95% модулей разностей не будет больше » [Ханк, с 263].

Другими словами, « оценивает общее стандартное отклонение нормального распределения значений Y» для каждого Х [Ханк, с 263].

Если стандартная ошибка оценки мала, то исходные точки находятся очень близко к прямой регрессии, если велика, то точки могут быть значительно удалены от прямой регрессии (т.е. существенная часть вариации величины Y не объясняется изменением величины Х).

В нашем случае

n

X

Y





1

12

1,3

2,32

1,04

2

26

3,2

3,08

0,02

3

59

5,1

4,86

0,06

4

88

6,3

6,42

0,02

5

101

8,2

7,13

1,15

6

138

9,7

9,12

0,33

7

157

10,3

10,15

0,02

8

201

11,5

12,53

1,05



782

55,6

55,6

3,69

= 0,784234, т.е исходные точки находятся очень близко к прямой регрессии.

^ Пятый этап: разложение дисперсии.

SST =

SSR +

SSE

Общая изменчивость Y

Изменчивость, объясненная линейной зависимостью

Остаток или необъясненная изменчивость







В нашем случае = 6,95.

n

Y







1

1,3

2,32

1,04

31,92

2

3,2

3,08

0,02

14,06

3

5,1

4,86

0,06

3,42

4

6,3

6,42

0,02

0,42

5

8,2

7,13

1,15

1,56

6

9,7

9,12

0,33

7,56

7

10,3

10,15

0,02

11,22

8

11,5

12,53

1,05

20,70



55,6

55,6

3,69

90,88

Следовательно, SSТ = 90,88,

SSE = 3,69,

SSR = 90,88-3,69= 87,19.

Шестой этап: расчет коэффициента детерминации, проверка гипотез.

Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации .

«Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной Х» [Ханк, с 273].

В нашем случае около 96% изменчивости количества новых покупателей можно объяснить разницей в расходах на рекламу (Х). Около 4% (100%-96%) изменчивости количества новых покупателей нельзя объяснить изменением в расходах на рекламу.

^ Седьмой этап: проверка гипотез.

«Прямая регрессии вычисляется по выборке пар значений X-Y. Статистическая модель простой линейной регрессии предполагает, что линейная связь величин Х и Y имеет место для всех возможных пар X-Y. Поэтому взаимосвязь величин Х и Y имеет вид . Можем ли мы по данной выборке сделать заключение, что такое соотношение истинно для всех Х и Y?

Рассмотрим гипотезу , где - угловой коэффициент регрессионной прямой генеральной совокупности. Заметим, что если эта гипотеза справедлива, в генеральной совокупности нет связи между значениями Х и Y. Если мы не можем опровергнуть гипотезу H0 , то, несмотря на ненулевое значение вычисленного по выборке углового коэффициента регрессионной прямой , мы не имеем оснований гарантированно утверждать, что значения Х и Y взаимозависимы. Иными словами, мы не можем исключить возможность того, что регрессионная прямая совокупности горизонтальна» [Ханк, с 274].



«Если гипотеза верна, проверочная статистика t со значением имеет t-распределение с количеством степеней свободы . Здесь оценка стандартного отклонения (или стандартная ошибка равна » [Ханк, с 275].

В нашем случае проверим гипотезу

- линейная связь отсутствует;

при альтернативе - имеется линейная связь с ненулевым наклоном.

стандартная ошибка = 0,004535383;

проверочная статистика t = 11,90658105;

По таблице t –распределения (распределения Стьюдента) = 4,316826 при степенях свободы n=8-2=6 Excel это функция СТЬЮДРАСПОБР(0,005;6)).

Поскольку , то гипотезу можно отклонить на уровне значимости 1%, т.е. настоль большое значение t (11,9)может появиться не чаще одного раза из 100, если линейной связи между величинами Х и Y нет.

Второй вариант оценки правильна ли нулевая гипотеза – это отношение (MSR – среднеквадратическое значение регрессии, MSE – среднеквадратическое значение ошибок) имеет F- распределение со степенями свободы .

«Для модели прямолинейной регрессии проверка гипотезы при альтернативе основывается на отношении с . При уровне значимости область отклонения гипотезы: » [Ханк, с 276].

В нашем случае получим таблицу ANOVA.

Таблица анализа дисперсии (ANOVA) для прямолинейной регрессии

Источник

Сумма квадратов

Степени свободы

Среднеквадратическое значение

Регрессия

SSR

1



Ошибки

SSE

n-2



Общая

SST

n-1




F = 141,7666723,

F0,001 =35,51 Excel это функция FРАСПОБР(0,001;1;n-2))

Поскольку , то принимается гипотеза.

^ Восьмой этап: анализ остатков.

Анализ остатков позволяет насколько рассматриваемая модель адекватна действительности.

Желательно проверить требования постоянства дисперсии, независимость значений остатков и т.д.

Построим график остатков для нашего случая.



На графике нет увеличения разброса оцениваемой величины, следователь выполняется требование неизменности дисперсии остатков. Поэтому можно сделать вывод о том, что взаимосвязь переменных Х и Y является линейной.

В исследуемых данных величина Y представляет собой квартальные данные о расходах на рекламу, однако кварталы были выбраны случайно и не являются упорядоченными во времени. Следовательно, построение графика остатков во времени или вычисление коэффициентов автокорреляции остатков для оценки независимость их значений не уместно.

В Excel для построения простой линейной регрессии можно использовать функцию ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика).

Известные_значения_y — множество значений y, которые уже известны для соотношения y = mx + b.

Величина

Описание

se1,se2,...,sen

Стандартные значения ошибок для коэффициентов m1,m2,...,mn.

seb

Стандартное значение ошибки для постоянной b (seb = #Н/Д, если конст имеет значение ЛОЖЬ).

r2

Коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т. е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. «Заметки» в конце данного раздела.

sey

Стандартная ошибка для оценки y.

F

F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.

df

Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.

ssreg

Регрессионная сумма квадратов.

ssresid

Остаточная сумма квадратов.

Ниже показано, в каком порядке возвращается дополнительная регрессионная статистика.

m

b

se1

seb

r2

sey

F

df

ssreg

ssreg

Ответ по нашим данным функции ^ ЛИНЕЙН( )

0,054001

1,671412

0,004535

0,522898

0,959395

0,784234

141,7667

6

87,18986

3,690142

^ Построение регрессии в пакете STATISTICA 6.






БЕТА

Стд.Ош.

B

Стд.Ош.

t(6)

p-уров.

Св.член







1,671412

0,522898

3,19644

0,018684

Var1

0,979487

0,082264

0,054001

0,004535

11,90658

0,000021



Итоговые статистики; ЗП:Var2 (Таблица данных1)




Значение

Множест. R

0,9795

Множест. R2

0,9594

Скорр. R2

0,9526

F(1,6)

141,7667

p

0,0000

^ Стд. Ош. Оценки

0,7842



И еще огромное количество дополнительных статистик.

^ Нелинейные модели и их трансформация

Нелинейные модели используют в случаях, когда линейная регрессионная модель неадекватно описывает связь в исходных данных. Для упрощения расчетов можно преобразовать нелинейные модели в линейные (линеаризация). Некоторые типы моделей и их преобразование, приводящее их к линейным, представлены в табл. 1.

Таблица 1

Нелинейная модель

Линеаризация





Полиномиальная регрессия



Инверсионная модель



Инверсионный тренд



Тригонометрическая функция



Полулогарифмическая модель







Экспоненциальный тренд



Функция Торнквиста



Логистическая модель

Логит-трансформация



Задача для самостоятельной работы

Задача 7.1. Построить простую линейную регрессию между расходами компании на рекламу, тыс. грн. и количеством новых покупателей, тыс. человек.

расходы на рекламу, тыс. грн.

количество новых покупателей, тыс. человек

X

Y

5

5,6

12

6,7

18

7,2

23

8,3

31

9,4

37

10,1

45

11

54

12,5




Похожие:

Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconЛабораторная работа №8 тема 8: статистическое изучение динамики социально-экономических явлений
Временные ряды количества отдыхающих в Пансионат «Кипарисный» являются уникальными. Корректно составленный временной ряд прогнозов...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconЛабораторная работа №8 тема 8: статистическое изучение динамики социально-экономических явлений
Временные ряды количества отдыхающих в Пансионат «Кипарисный» являются уникальными. Корректно составленный временной ряд прогнозов...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений icon7. Статистическое изучение связи между явлениями
При исследовании социально-экономических явлений часто приходится иметь дело с взаимосвязанными показателями
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconЛабораторная работа №2 Тема: абсолютные и относительные величины
Абсолютные статистические показатели всегда являются именованными числами. В зависимости от социально-экономической сущности исследуемых...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconЛабораторная работа №4 тема 3: статистические распределения и их основные характеристики
Статистическое описание совокупности было бы неполным, если ограничиваться лишь показателями центральной тенденции: средними величинами,...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconЛабораторная работа №1 Тема: сбор статистической информации. Сводка и группировка
Статистическое наблюдение. Определение цели и объекта наблюдения, состава признаков, подлежащих регистрации; разработка документов...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconКурсовая работа по дисциплине: Исследование социально-экономических и политических процессов
Понимаете сущность социально-экономических и политических процессов, протекающих в России
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconЛабораторная работа №6 тема 6: ряды динамики
Социально-экономические явления общественной жизни находятся в непрерывном развитии. Их изменение во времени статистика изучает при...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений icon1. Понятие и общее представление о статистике
...
Лабораторная работа №7 тема 7: статистическое изучение взаимосвязи социально-экономических явлений iconТема: «Статистика основных фондов»
Статистическое изучение основных фондов предприятия на примере ОАО «Яльчикский сыродельный завод»
Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2020
контакты
userdocs.ru
Главная страница