Исследование регрессии на основе численных данных
Федеральное агентство по образованию
Государственное образовательное
учреждение высшего профессионального образования
Новгородский Государственный университет
Имени Ярослава Мудрого.
Кафедра «Прикладная математика и информатика».
Курсовая работа по дисциплине
«Математическая статистика»
на тему:
“Исследование регрессии на основе численных данных”
Новгород Великий
2005
Теоретическая часть
2. Постоянная и случайная составляющие случайной переменой
4. Регрессия по методу наименьших квадратов
5. Качество оценки: коэффициент R²
6. Точность коэффициентов регрессии
7. Доверительные интервалы
8. F-статистика
Практическая часть
I. Исследование регрессии при выборке из генеральной совокупности N(0;1)
III. Исследование регрессии при выборке из генеральной совокупности N(0;2)
Заключение
Условное математическое ожидание M(Y|X=x) случайной переменной Y, рассматриваемое как функция x, т.е. M(Y|X=x)=f(x), называется функцией регрессии случайной переменной Y относительно X (или функцией регрессии Y по X). Точно также условное математическое ожидание M(X|Y=y), случайной переменной X, т.е. M(X|Y=y)=f(x), называется функцией регрессии случайной переменной X относительно Y (или функцией регрессии X по Y).
Функции регрессии выражают математическое ожидание переменной Y (или X) для случая, когда другая переменная принимает определённое числовое значение, или, иначе говоря, функция M(Y|X=x) показывает, каково будет в среднем значение случайной переменной Y, если переменная X принимает значение x. Всё сказанное справедливо и для функции M(X|Y=y).
Становится очевидным, что функция регрессии имеет важное значение при статистическом анализе зависимостей между переменными и может быть использована для прогнозирования одной из случайных переменных, если известно значение другой случайной переменной. Точность такого прогноза определяется дисперсией условного распределения.
Несмотря на важность понятия функции регрессии, возможности её практического применения весьма ограничены. Для оценки функции регрессии необходимо знать аналитический вид двумерного распределения (X,Y). Только зная вид этого распределения, можно точно определить вид функции регрессии, а затем оценить его параметры. Однако для подобной оценки мы чаще всего располагаем лишь выборкой ограниченного объёма, по которой нужно найти вид двумерного распределения (X,Y), а затем вид функции регрессии. Это может привести к значительным ошибкам, т.к. одну и ту же совокупность точек (xi,yi) на плоскости можно одинаково успешно описать с помощью различных функций.
Для характеристики формы связи при изучении корреляционной зависимости пользуются понятием кривой регрессии. Кривой регрессии Y по X (или Y по X) называется условное среднее значение случайной переменной Y (Х), рассматриваемой как функция от x (у). Эта функция обладает одним замечательным свойством: она даёт наименьшую среднюю погрешность оценки прогноза.
2. Постоянная и случайная составляющие случайной переменой
Часто вместо рассмотрения случайной величины как единого целого можно и удобно разбить ее на постоянную и чисто случайную составляющие, где постоянная составляющая всегда есть ее математическое ожидание. Если x случайная переменная и m - ее математическое ожидание, то декомпозиция случайной величины записывается следующим образом:
x= m+u,
где u чисто случайная составляющая (в регрессионном анализе она обычно представлена случайным членом)
Коэффициент корреляции показывает, что две переменные связаны друг с другом, однако не дает представления о том, каким образом они связаны.
Рассмотрим простейшую модель: y=a+bx+u
Величина y рассматривается как зависимая переменная, состоящая из:
1. неслучайной составляющей a+bx, где x выступает как объясняющая (или независимая) переменная, а постоянные величины a и b - как параметры уравнения
2. случайного члена u
На графиках подбора в проделанной работе мы видим Y предсказанное (■) и Y полученное. На них показано, как комбинация этих двух составляющих определяет величину Y. Показатели Xi – это гипотетические значения объясняющей переменной. Если бы соотношение между Y и X было точным, то соответствующие значения Y были бы представлены Y предсказанное (■). Наличие случайного члена приводит к тому, что в действительности значение Y получается другим.
Задача регрессионного анализа состоит в получении оценок a и b и, следовательно, в определении положения прямой по точкам.
Очевидно, что чем меньше значения u, тем легче эта задача. Действительно, если бы случайный член отсутствовал вовсе, то точки Y совпадали бы с точками Y предсказанное и точно бы показали положение прямой. В этом случаю было бы достаточно просто построить эту прямую и определить значения a и b.
Почему существует случайный член:
1. Невключение объясняющих переменных. Соотношение между X и Y почти всегда является очень большим упрощением. В действительности существуют другие факторы влияющие на Y, которые не учтены в формуле y=a+bx+u. Влияние факторов приводит к тому, что наблюдаемые точки лежат вне прямой. Часто происходит так, что имеются переменные, которые мы хотели бы включить в регрессионное уравнение, но не можем этого сделать потому, что не знаем, как их измерить, например психологические факторы. Возможно, что существуют также другие факторы, которые мы можем измерить, но которые оказывают такое слабое влияние, что их не стоит учитывать. Кроме того, могут быть факторы, которые являются существенными, но которые мы из-за отсутствия опыта таковыми не считаем. Объединив все эти составляющие, мы получаем то, что обозначено как u.
2. Агрегирование переменных . во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число соотношений. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между ними является лишь аппроксимацией. Наблюдаемое расхождение при этом приписывается наличию случайного члена.
3. Неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Иногда может показаться, что существует зависимость между Y и X, но это будет лишь аппроксимация, и расхождение вновь будет связано с наличием случайного члена.
4. Неправильная функциональная спецификация. Функциональное соотношение между Y и X математически может быть определено неправильно. Например, истинная зависимость может не являться линейной, а быть более сложной. Безусловно, надо постараться избежать возникновения этой проблемы, используя подходящую математическую формулу, но любая самая изощренная формула является лишь приближением, и существующее расхождение вносит вклад в остаточный член.
5. Ошибки измерения. Если в измерении одной или более взаимосвязанных переменных имеются ошибки, то наблюдаемые значения не будут соответствовать точному соотношению, и существующее расхождение будет вносить вклад в остаточный член.
Остаточный член является суммарным проявлением всех этих факторов. Очевидно, что если бы вас интересовало только измерение влияния X на Y, то было бы значительно удобнее, если бы остаточного члена не было. Если бы он отсутствовал, мы бы знали, что любое изменение Y от наблюдения к наблюдению вызвано изменением X, и смогли бы точно вычислить b. Однако в действительности каждое изменение Y отчасти вызвано изменением u, и это значительно усложняет жизнь.
5. Регрессия по методу наименьших квадратов
Пусть мы имеем наблюдения X и Y, то перед нами стоит задача – определить значения a и b. В качестве грубой аппроксимации можно это сделать на глаз, построив прямую, в наибольшей степени соответствующую этим точкам. Отрезок, отсекаемый прямой на оси OY, представляет собой оценку a, а угловой коэффициент прямой представляет собой оценку b.
Необходимо признать, что мы никогда не сможем рассчитать истинные значения a и b при попытке построить прямую и определить положение линии регрессии. Мы можем получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в том случае не будет способа узнать, что оценки абсолютно точны.
Первым шагом является определение остатка для каждого наблюдения. Разность между фактическим и расчетным значениями, то есть Y и Y предсказанное, описывается как остаток. Обозначим остаток какого-то наблюдения за ei.
Стандартный же остаток (отклонение)- мера разброса для распределения вероятностей, это квадратный корень из дисперсии.
Очевидно, что мы хотим построить линию регрессии таким образом, чтобы эти остатки были минимальными. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков. Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков
S=åei ²
В соответствии с этим критерием, чем меньше S, тем строже соответствие.
Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки a и b.
6. Качество оценки: коэффициент R²
Цель регрессионного анализа состоит в объяснении поведения зависимой переменной Y. Мы пытаемся сделать это путем определения регрессионной зависимости Y от соответственно выбранной независимой переменной X. Но мы не можем с помощью уравнения регрессии объяснить расхождение между фактическим и расчетным значениями Y. Коэффициент детерминации R² - та часть дисперсии Y, которая объяснена уравнением регрессии.
R²=D(Y расчетное)
D(Y)
Максимальное значение коэффициента R² равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что Y=Yрасчетному для всех наблюдений и все остатки равны нулю.
Если в выборке отсутствует видимая связь между X и Y, то R² будет близок к нулю. При прочих равных условиях желательно, чтоб коэффициент R² был как можно больше.
7. Точность коэффициентов регрессии
Увеличивая u, мы увеличиваем его стандартное отклонение, следовательно, увеличиваем стандартные отклонения a и b. Чем больше число наблюдений, тем меньше дисперсии оценок. Чем большей информацией мы располагаем, тем более точными будут наши оценки. Чем больше дисперсия X, тем меньше будут дисперсия коэффициентов регрессии.
Коэффициенты регрессии вычисляются на основании предположения, что наблюдаемые изменения Y происходят вследствие изменений Х, но в действительности они лишь отчасти вызваны изменением Х, а отчасти вариациями u. Чем меньше дисперсия Х, тем больше, вероятно, будет относительное влияние фактора случайности при определении отклонений Y и тем более вероятно, что регрессионный анализ может оказаться неверным. Важные значения имеют дисперсия случайного члена и дисперсия Х.
Дисперсия случайного члена нам неизвестна, но мы можем получить ее оценку на основе остатков. Разброс остатков относительно линии регрессии будет отражать неизвестный разброс u относительно линии y=a+bx, хотя в общем остаток и случайный член в любом данном наблюдении не равны друг другу. Следовательно, выборочная дисперсия остатков, которую мы можем измерить, сможет быть использована для оценки дисперсии случайного члена, которую мы получить не можем.
Рассматривая теоретические дисперсии оценок a и b и оценку случайного члена, можно получить оценки теоретических дисперсий для a и b и после извлеченного квадратного корня – оценки их стандартных отклонений. Вместо термина «оценка стандартного отклонения функции плотности вероятности» коэффициента регрессии будем использовать термин «стандартная ошибка» коэффициента регрессии.
Стандартная ошибка дает только общую оценку степени точности коэффициентов регрессии. Она позволяет получить некоторое представление о кривой функции плотности вероятности. Однако она не несет информации о том, находится ли полученная оценка в середине распределения и, следовательно, является точной или в «хвосте» распределения и, таким образом, относительно неточна.
Чем больше дисперсия случайного члена, тем, очевидно, больше будет выборочная дисперсия остатков и, следовательно, существеннее стандартные ошибки коэффициентов в уравнении регрессии, что позволяет с высокой вероятностью заключить, что полученные коэффициенты неточны. Однако это всего лишь вероятность. Возможно, что в какой-то конкретной выборке воздействия случайного фактора в различных наблюдениях будут взаимно погашены и в конечном итоге коэффициенты регрессии будут точны. Проблема состоит в том, что, вообще говоря, нельзя утверждать, произойдет это или нет.
8. Доверительные интервалы
Вопрос стоит в том, насколько сильно гипотетическое значение может отличаться от результата эксперимента, прежде чем они станут несовместимыми. Гипотетическое значение β является совместимым с результатом оценивания регрессии (b), если оно удовлетворяет двойному неравенству:
b-с.о.(b)*tкрит < β < b+с.о.(b)* tкрит
Любое гипотетическое значение β, которое удовлетворяет этому соотношению, будет автоматически совместимо с оценкой b, иными словами, не будет опровергаться ею. Множество этих значений, определенных как интервал между нижней и верхней границами неравенства, известно как доверительный интервал для величины β.
9. F-статистика
F-статистика используется для проверки качества оценивания регрессии и записывается как отношение объясненной суммы квадратов (в расчете на одну независимую переменную к остаточной сумме квадратов) в расчете на одну степень свободы
SS – сумма квадратов отклонений (с.к.о.)
Df – число степеней свободы (с.с.)
MS – с.к.о. деленная на с.с.
F-статистика – MS регрессии деленная на MS остатка
Задание
Необходимо исследовать регрессию на основе численных данных. Задана истинная зависимость: y=a+bx, x∈[a,b]
Вариант №10
y=4+3x, x∈[5,20]
Практическая часть
I.
Задана истинная зависимость y = 3*x + 4, x принадлежит промежутку [5;20].
1. На промежутке [5;20] выберем 30 значений, равноудаленных от соседних, таким образом, составим выборку для X. Вычислим для этой выборки значения Y:
X
Y
5
19
5,40
20,20
5,81
21,44
6,62
23,85
6,77
24,32
6,87
24,61
6,94
24,81
7,02
25,06
8,12
28,35
8,13
28,38
9,44
32,32
9,46
32,39
10,12
34,36
10,42
35,27
10,89
36,67
11,02
37,06
12,19
40,58
12,46
41,38
12,53
41,60
12,63
41,88
13,28
43,83
13,93
45,80
14,62
47,86
14,94
48,82
15,39
50,18
18,08
58,23
18,14
58,42
19,38
62,14
19,50
62,51
19,88
63,64
19,99
63,96
20
64
2. Используя генератор случайных чисел, находим по 30 значений Ui , Vi.Выборку производим из нормальной генеральной совокупности N(0;1).
Ui
Vi
0,17465
-0,13918
0,608766
2,200486
0,256966
0,415696
-0,40546
-0,77361
-0,50702
1,026156
0,148453
-0,27599
0,69341
1,812241
0,355941
0,428406
-1,70596
0,488922
0,638124
0,200499
-0,79704
0,109958
0,717844
0,516177
0,676484
0,522041
0,481091
-2,68454
-0,66089
0,171234
0,69098
0,560749
-1,05002
-0,11743
-0,77062
-1,04935
1,754124
0,002257
-0,70798
-1,37519
-0,62831
-1,6882
-1,99856
0,206826
-0,05951
0,11504
0,656803
1,57218
-1,15063
-0,32191
0,580555
-0,62645
-0,36795
-0,29376
0,839377
-1,40617
-1,53361
-1,85625
-1,88214
2,009965
3. Полагая вместо Xi значения X+Ui, а вместо Yi — Y+Vi, получим две зависимые выборки:
Xi
Yi
5,17465
18,86082
6,142534
22,80179
6,686606
23,70461
6,102919
22,75152
6,323632
25,51811
7,310079
25,20889
8,52568
29,30905
8,407487
28,58304
6,451793
28,96217
9,030714
29,37827
7,730137
29,69149
9,914749
32,10689
12,50058
39,99431
12,54094
37,495
11,43878
40,47025
13,51119
43,0214
11,84024
42,55334
12,57741
42,99474
17,06511
49,93521
15,34643
50,78805
15,49843
50,69203
14,13871
52,61864
16,1716
52,80839
17,39148
55,7762
16,84934
57,678
19,04975
58,78113
18,18456
59,36377
19,80434
59,48872
17,69916
59,84204
18,11786
66,00997
4. По полученным значениям находим уравнение линейной регрессии (ExcelàАнализ данныхàРегрессия)
y = 2,959989002*x+ 4,977076691
а также:
коэффициент детерминации R2 0,957421057
доверительные интервалы для коэффициентов
Y:(1,816620984; 8,137532399)
X:(2,718346233; 3,20163177)
стандартные ошибки коэффициентов Y: 1,542882806 X: 0,117966049
F-статистика: 629,6020401
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
20,29398457
-1,433162272
-0,492864465
2
23,15891114
-0,357118898
-0,122813179
3
24,76935672
-1,064742069
-0,366164768
4
23,04164954
-0,290126919
-0,099774639
5
23,69495855
1,82315541
0,626983094
6
26,61483142
-1,40594406
-0,483504123
7
30,21299691
-0,903945143
-0,310866709
8
29,86314499
-1,280101594
-0,440226902
9
24,07431234
4,887859798
1,680934847
10
31,70789177
-2,329622213
-0,801157014
11
27,85819572
1,833292384
0,630469199
12
34,32462506
-2,217731899
-0,762677938
13
41,97864341
-1,984328613
-0,682410554
14
42,09811424
-4,603111173
-1,583009803
15
38,83574651
1,634507824
0,562107195
16
44,97006519
-1,94866985
-0,670147507
17
40,02405468
2,529284508
0,869820871
18
42,20607611
0,788668616
0,271223115
19
55,48960825
-5,554400732
-1,910158256
20
50,40235334
0,385700071
0,132642243
21
50,85227346
-0,160247411
-0,05510908
22
46,82750936
5,791133326
1,991570588
23
52,84484634
-0,036456609
-0,012537427
24
56,45565155
-0,679455491
-0,233664724
25
54,85093911
2,827058233
0,972225247
26
61,36411843
-2,582990043
-0,888290203
27
58,80317324
0,560592623
0,192787787
28
63,59771108
-4,10899113
-1,413081934
29
57,36638532
2,475657295
0,851378474
30
58,60572907
7,404236032
2,546316563
5. Сравним уравнение полученной регрессии с истинной зависимостью:
y = 3*x + 4 y = 2,959989002*x+ 4,977076691
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,040011. При этом константа изменяется по сравнению с заданной приблизительно на 0,9771.
6. Изменяя только Yi(Yi = Y + Vi) и оставляя неизменными X, получим пару выборок:
X
Yi
5,00
18,86082
5,53
22,80179
6,43
23,70461
6,51
22,75152
6,83
25,51811
7,16
25,20889
7,83
29,30905
8,05
28,58304
8,16
28,96217
8,39
29,37827
8,53
29,69149
9,20
32,10689
11,82
39,99431
12,06
37,495
12,10
40,47025
12,82
43,0214
12,89
42,55334
13,35
42,99474
15,31
49,93521
16,05
50,78805
16,13
50,69203
16,14
52,61864
16,23
52,80839
16,73
55,7762
18,00
57,678
18,47
58,78113
18,55
59,36377
18,96
59,48872
19,23
59,84204
20,00
66,00997
Теперь находим уравнение линейной регрессии:
y = 2,926758474*x+ 4,90105721
коэффициент детерминации R2: 0,994191219
доверительные интервалы для коэффициентов:
Y: (3,750717832; 6,051396589)
X : (2,840155626; 3,013361321)
стандартные ошибки коэффициентов: Y: 0,561576877 X: 0,042278094
F-статистика: 4792,288613.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,53484958
-0,674029578
-0,627575517
2
21,09706173
1,704728266
1,58723854
3
23,71905932
-0,014449322
-0,013453476
4
23,94950571
-1,197985713
-1,115420639
5
24,89272815
0,625381854
0,58228059
6
25,86140687
-0,652516867
-0,60754546
7
27,8242206
1,484829404
1,382495088
8
28,465987
0,117053004
0,108985721
9
28,77682166
0,185348338
0,172574147
10
29,46414142
-0,085871418
-0,079953167
11
29,85804397
-0,166553968
-0,155075083
12
31,81817809
0,288711912
0,268813912
13
39,50731665
0,486993352
0,453429812
14
40,19731601
-2,702316014
-2,516072624
15
40,31387901
0,156370987
0,145593912
16
42,42273144
0,598668557
0,557408371
17
42,62772155
-0,074381545
-0,069255176
18
43,96752614
-0,972786139
-0,905741801
19
49,71260823
0,222601766
0,207260071
20
51,88845089
-1,100400893
-1,024561358
21
52,10014002
-1,408110019
-1,311063197
22
52,13095552
0,487684475
0,454073303
23
52,40561547
0,402774534
0,375015347
24
53,87940052
1,896799481
1,766072223
25
57,58262041
0,095379586
0,088806033
26
58,95592012
-0,174790122
-0,162743602
27
59,19976456
0,164005442
0,152702201
28
60,4069285
-0,918208496
-0,854925645
29
61,19071418
-1,348674183
-1,255723674
30
63,43622668
2,573743318
2,396361149
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y = 2,926758474*x+ 4,90105721
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,0732. При этом константа изменяется по сравнению с заданной приблизительно на 0,901.
Сравним полученное уравнение с первоначальным уравнением y=a+bx:
y = 2,959989002x+ 4,977076691 y = 2,926758474*x+ 4,90105721
Коэфициент при переменной X отличается от коэффициента в первоначальном уравнении регрессии приблизительно на 0,03323. При этом константа изменяется по сравнению с первоначальным значением в уравнении регрессии примерно на 0,07602.
7. Полагая вместо Vi значение 0,5Vi;1,5Vi и так далее получим новые пары выборок и вновь вычислим уравнение линейной регрессии.
Vi=0,5Vi:
Ui
Vi=0,5Vi
0,17
-0,07
0,61
1,10
0,26
0,21
-0,41
-0,39
-0,51
0,51
0,15
-0,14
0,69
0,91
0,36
0,21
-1,71
0,24
0,64
0,10
-0,80
0,05
0,72
0,26
0,68
0,26
0,48
-1,34
-0,66
0,09
0,69
0,28
-1,05
-0,06
-0,77
-0,52
1,75
0,00
-0,71
-0,69
-0,63
-0,84
-2,00
0,10
-0,06
0,06
0,66
0,79
-1,15
-0,16
0,58
-0,31
-0,37
-0,15
0,84
-0,70
-1,53
-0,93
-1,88
1,00
Yi = Y+0,5Vi:
X
Yi=Y+0.5Vi
5
18,93
5,53
21,70
6,43
23,50
6,51
23,14
6,83
25,01
7,16
25,35
7,83
28,40
8,05
28,37
8,16
28,72
8,39
29,28
8,53
29,64
9,20
31,85
11,82
39,73
12,06
38,84
12,10
40,38
12,82
42,74
12,89
42,61
13,35
43,52
15,31
49,93
16,05
51,48
16,13
51,54
16,14
52,52
16,23
52,75
16,73
54,99
18,00
57,84
18,47
59,09
18,55
59,51
18,96
60,19
19,23
60,77
20
65,00
Уравнение регрессии: y= 2,963379082*x+ 4,450530823
коэффициент детерминации R2: 0,998577228
доверительные интервалы для коэффициентов:
Y: (3,875361588; 5,025700059)
X : (2,920077692; 3,006680471).
стандартные ошибки коэффициентов: Y: 0,280788217 X: 0,02113903
F-статистика: 19651,88866.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,26742623
-0,337015081
-0,627576556
2
20,84918532
0,852363896
1,58723935
3
23,50399025
-0,007223556
-0,013451428
4
23,73732006
-0,598992754
-1,115421329
5
24,69234442
0,312691749
0,58228258
6
25,67314358
-0,326260858
-0,607550454
7
27,66051671
0,742414584
1,38249596
8
28,31031311
0,058527233
0,108987168
9
28,62503705
0,092674288
0,172574504
10
29,32095678
-0,042936843
-0,079955343
11
29,71978798
-0,083278825
-0,155078633
12
31,70444797
0,144356749
0,2688156
13
39,48979567
0,243498692
0,453433925
14
40,18842855
-1,351156818
-2,516072395
15
40,30645002
0,078187321
0,145597429
16
42,44168914
0,299331721
0,557404048
17
42,64924415
-0,037191397
-0,069256393
18
44,00581284
-0,486390854
-0,90573839
19
49,82277938
0,111299801
0,20725822
20
52,02584693
-0,550198466
-1,024558478
21
52,24018478
-0,704056702
-1,311067383
22
52,27138586
0,243843866
0,454076694
23
52,54948244
0,201387433
0,375015952
24
54,041708
0,948398152
1,766070657
25
57,79126385
0,04768904
0,088804702
26
59,18174676
-0,087395219
-0,162744024
27
59,42864226
0,082001316
0,152699706
28
60,65091065
-0,459103548
-0,854925016
29
61,44450333
-0,674335017
-1,255720801
30
63,71811245
1,286870097
2,396360129
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 2,963379082*x+ 4,450530823
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,0366. При этом константа изменяется по сравнению с заданной приблизительно на 0, 4505.
Vi=1,5Vi:
Ui
Vi=1,5Vi
0,17
-0,21
0,61
3,30
0,26
0,62
-0,41
-1,16
-0,51
1,54
0,15
-0,41
0,69
2,72
0,36
0,64
-1,71
0,73
0,64
0,30
-0,80
0,16
0,72
0,77
0,68
0,78
0,48
-4,03
-0,66
0,26
0,69
0,84
-1,05
-0,18
-0,77
-1,57
1,75
0,00
-0,71
-2,06
-0,63
-2,53
-2,00
0,31
-0,06
0,17
0,66
2,36
-1,15
-0,48
0,58
-0,94
-0,37
-0,44
0,84
-2,11
-1,53
-2,78
-1,88
3,01
Yi = Y+1,5Vi:
X
Yi=Y+1,5Vi
5
18,79
5,53
23,90
6,43
23,91
6,51
22,36
6,83
26,03
7,16
25,07
7,83
30,22
8,05
28,80
8,16
29,21
8,39
29,48
8,53
29,75
9,20
32,36
11,82
40,26
12,06
36,15
12,10
40,56
12,82
43,30
12,89
42,49
13,35
42,47
15,31
49,94
16,05
50,10
16,13
49,85
16,14
52,72
16,23
52,87
16,73
56,56
18,00
57,52
18,47
58,47
18,55
59,22
18,96
58,79
19,23
58,91
20
67,01
Уравнение регрессии y= 2,890137245*x+ 5,35159247
коэффициент детерминации R2: 0,986697969
доверительные интервалы для коэффициентов:
Y: (3,626084764; 7,077100176)
X : (2,760233076; 3,020041413).
стандартные ошибки коэффициентов: Y: 0,842364652 X: 0,063417091
F-статистика: 2076,941658.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,80227869
-1,011045244
-0,627576556
2
21,34494358
2,557091687
1,58723935
3
23,93413328
-0,021670667
-0,013451428
4
24,1616962
-1,796978261
-1,115421329
5
25,09311651
0,938075248
0,58228258
6
26,04967458
-0,978782574
-0,607550454
7
27,98792849
2,227243752
1,38249596
8
28,62166475
0,175581699
0,108987168
9
28,92861008
0,278022864
0,172574504
10
29,60732971
-0,12881053
-0,079955343
11
29,99630354
-0,249836474
-0,155078633
12
31,93191137
0,433070246
0,2688156
13
39,52483915
0,730496077
0,453433925
14
40,20620486
-4,053470453
-2,516072395
15
40,32130936
0,234561962
0,145597429
16
42,40377466
0,897995163
0,557404048
17
42,60619981
-0,111574191
-0,069256393
18
43,92924002
-1,459172561
-0,90573839
19
49,60243646
0,333899403
0,20725822
20
51,75105376
-1,650595399
-1,024558478
21
51,96009412
-2,112170106
-1,311067383
22
51,99052404
0,731531599
0,454076694
23
52,26174729
0,604162298
0,375015952
24
53,71709152
2,845194455
1,766070657
25
57,37397467
0,143067121
0,088804702
26
58,73009089
-0,262185657
-0,162744024
27
58,97088421
0,246003949
0,152699706
28
60,16294344
-1,377310645
-0,854925016
29
60,93692196
-2,023005051
-1,255720801
30
63,15433736
3,86061029
2,396360129
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 2,890137245*x+ 5,35159247
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,1099. При этом константа изменяется по сравнению с заданной приблизительно на 1,3516.
II.
1. Используя генератор случайных чисел, находим по 30 значений Ui , Vi.Выборку производим из генеральной совокупности N(0;0,5).
Ui
Vi
-0,33978
-0,62199
-0,52754
0,214371
0,561159
0,842674
-0,21023
-0,19153
0,55333
-0,12142
-0,07485
0,748012
0,536907
0,02968
0,428237
1,299704
1,147537
-1,0117
-1,22736
0,118428
0,457453
0,003653
0,031557
0,213658
-0,34181
0,270182
-0,3208
0,658724
-0,63071
-0,56332
-0,49658
-0,59886
-0,97769
-0,28392
-0,06608
0,134859
-0,3185
-0,96067
0,230928
-0,01689
-0,86298
0,443846
-0,86812
0,141694
-0,01716
0,289101
-0,47807
0,589177
0,03681
-0,04456
-0,22203
-0,06998
-0,0324
1,050125
-0,16564
-0,09764
-0,26828
1,051867
-0,20672
-0,92324
2. Затем, полагая вместо Xi значения X+Ui, а вместо Yi — Y+Vi, получим две зависимые выборки и найдем по полученным значениям уравнение линейной регрессии.
Xi
Yi
4,660218
18,37801
5,006231
20,81568
6,990799
24,13159
6,29815
23,33361
7,383983
24,37054
7,08678
26,23289
8,369177
27,52649
8,479782
29,45434
9,305287
27,46155
7,165227
29,2962
8,98463
29,58518
9,228463
31,80437
11,48228
39,74246
11,73905
40,83826
11,46897
39,7357
12,32363
41,86179
11,91257
42,38685
13,28196
44,17896
14,99248
48,97228
16,28534
52,14635
15,26376
52,82408
15,26916
52,55351
16,21396
52,98245
16,2566
54,79319
18,03678
57,95535
18,24716
59,3376
18,52011
60,70765
18,79933
60,79726
18,96448
62,75016
19,79328
63,07676
y= 3,057386713*x+ 3,849828606
коэффициент детерминации R2: 0,987296367
доверительные интервалы для коэффициентов:
Y: (2,091385142; 5,608272069)
X : (2,923132377; 3,191641049).
стандартные ошибки коэффициентов: Y: 0,85844335 X: 0,065540772
F-статистика: 2176,094.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
18,09791688
0,280093338
0,172302263
2
19,15581308
1,659863858
1,021082118
3
25,22340441
-1,091811555
-0,671638972
4
23,10570844
0,227897612
0,140193532
5
26,42551873
-2,054980175
-1,264141935
6
25,51685652
0,716033201
0,440475099
7
29,43763863
-1,911148164
-1,175662212
8
29,77580289
-0,321461291
-0,19775018
9
32,29968921
-4,838142402
-2,976232458
10
25,75669845
3,539499448
2,17735905
11
31,31931647
-1,734133513
-1,066769851
12
32,06480759
-0,260432822
-0,160207897
13
38,95560729
0,786848535
0,484037871
14
39,74063661
1,097628052
0,675217049
15
38,91489336
0,820807581
0,504928123
16
41,52793536
0,333849687
0,205371027
17
40,27115213
2,115696656
1,301492295
18
44,45790793
-0,27894995
-0,171598896
19
49,68764901
-0,715365598
-0,440064416
20
53,64041694
-1,494063885
-0,91908858
21
50,51704631
2,307029716
1,419192771
22
50,53354027
2,019970659
1,242605475
23
53,42216985
-0,439718748
-0,270497456
24
53,55254369
1,240650031
0,763198473
25
58,99523708
-1,039890467
-0,639699187
26
59,63846367
-0,30086436
-0,185079768
27
60,47295567
0,234690934
0,144372513
28
61,32664816
-0,529390439
-0,325659907
29
61,83159061
0,918570407
0,565067919
30
64,36553236
-1,288776345
-0,792803864
Новое уравнение регрессии сравним с первоначальным :
y = 3*x + 4 y= 3,057386713*x+ 3,849828606
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,0574 При этом константа изменяется по сравнению с заданной приблизительно на 0,8498.
3. Изменяя только Yi(Yi = Y + Vi) и оставляя неизменными X, получим пару выборок, снова найдем уравнение линейной регрессии.
X
Yi
5,00
18,37801
5,53
20,81568
6,43
24,13159
6,51
23,33361
6,83
24,37054
7,16
26,23289
7,83
27,52649
8,05
29,45434
8,16
27,46155
8,39
29,2962
8,53
29,58518
9,20
31,80437
11,82
39,74246
12,06
40,83826
12,10
39,7357
12,82
41,86179
12,89
42,38685
13,35
44,17896
15,31
48,97228
16,05
52,14635
16,13
52,82408
16,14
52,55351
16,23
52,98245
16,73
54,79319
18,00
57,95535
18,47
59,3376
18,55
60,70765
18,96
60,79726
19,23
62,75016
20,00
63,07676
y= 3,00165434*x+4,06592825
коэффициент детерминации R2: 0,998303894
доверительные интервалы для коэффициентов:
Y: (3,429737572; 4,702118928)
X : (2,953758975; 3,049549705).
стандартные ошибки коэффициентов: Y: 0,310577888 X: 0,023381734
F-статистика: 16480,40672.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,07419995
-0,69618995
-1,172069792
2
20,67638918
0,139290823
0,234502905
3
23,36548379
0,766106211
1,289777233
4
23,60182731
-0,268217311
-0,451556947
5
24,56918684
-0,198646845
-0,334431667
6
25,56265409
0,670235907
1,128374893
7
27,5756963
-0,049206303
-0,082841216
8
28,23388553
1,220454469
2,054694721
9
28,55267447
-1,091124469
-1,836961348
10
29,25758276
0,038617235
0,065014002
11
29,6615653
-0,076385297
-0,12859838
12
31,67185933
0,132510672
0,223088191
13
39,55776325
0,184696749
0,310946
14
40,26541973
0,572840272
0,964404583
15
40,38496558
-0,649265579
-1,093070321
16
42,54778363
-0,685993627
-1,154903784
17
42,75801943
-0,371169434
-0,624881876
18
44,13210968
0,046850319
0,078874801
19
50,02420866
-1,051928657
-1,770973284
20
52,25573122
-0,109381217
-0,184148622
21
52,47283748
0,351242524
0,591333949
22
52,50444155
0,049068449
0,082609131
23
52,78613005
0,196319948
0,330514224
24
54,29762932
0,495560677
0,83430061
25
58,09561476
-0,140264763
-0,236142581
26
59,50405727
-0,166457266
-0,280238939
27
59,75414169
0,953508309
1,605277821
28
60,992197
-0,194937002
-0,328185967
29
61,7960398
0,954120203
1,606307974
30
64,09901505
-1,022255049
-1,721016316
Новое уравнение регрессии сравним с первоначальным :
y = 3*x + 4 y= 3,00165434*x+4,06592825
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,0659. При этом константа изменяется по сравнению с заданной приблизительно на 0,0659.
4.Полагая вместо Vi значения 0,5Vi; 1,5Vi и так далее, получим новые пары выборок и вновь вычислим уравнение линейной регрессии.
Vi=0,5Vi:
Ui
0,5Vi
-0,33978
-0,31099
-0,52754
0,107185
0,561159
0,421337
-0,21023
-0,09576
0,55333
-0,06071
-0,07485
0,374006
0,536907
0,01484
0,428237
0,649852
1,147537
-0,50585
-1,22736
0,059214
0,457453
0,001826
0,031557
0,106829
-0,34181
0,135091
-0,3208
0,329362
-0,63071
-0,28166
-0,49658
-0,29943
-0,97769
-0,14196
-0,06608
0,067429
-0,3185
-0,48033
0,230928
-0,00845
-0,86298
0,221923
-0,86812
0,070847
-0,01716
0,144551
-0,47807
0,294589
0,03681
-0,02228
-0,22203
-0,03499
-0,0324
0,525063
-0,16564
-0,04882
-0,26828
0,525934
-0,20672
-0,46162
Yi = Y+0,5Vi
Xi
Yi=Y+0,5Vi
5,00
18,689005
5,53
20,708492
6,43
23,710256
6,51
23,429369
6,83
24,431248
7,16
25,858884
7,83
27,511651
8,05
28,804489
8,16
27,967399
8,39
29,236984
8,53
29,583357
9,20
31,697546
11,82
39,607365
12,06
40,508903
12,10
40,017361
12,82
42,161216
12,89
42,528808
13,35
44,111529
15,31
49,452617
16,05
52,154798
16,13
52,602153
16,14
52,482664
16,23
52,837901
16,73
54,498605
18,00
57,977628
18,47
59,372587
18,55
60,182584
18,96
60,846076
19,23
62,224228
20,00
63,538378
Уравнение регрессии: y= 3,000827144*x+ 4,032964241
коэффициент детерминации R2: 0,999575198
доверительные интервалы для коэффициентов:
Y: (3,714868492; 4,35105999)
X : (2,976879431; 3,024774857).
стандартные ошибки коэффициентов: Y: 0,155289144 X: 0,011690882
F-статистика: 65885,12884.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,03709996
-0,348094853
-1,172067872
2
20,63884766
0,069643907
0,234497538
3
23,32720121
0,383054584
1,289780551
4
23,5634796
-0,134110577
-0,451562835
5
24,53057255
-0,099324083
-0,334433461
6
25,52376602
0,335117885
1,128373208
7
27,53625347
-0,024602829
-0,082840023
8
28,19426132
0,610228125
2,054695076
9
28,5129624
-0,545563733
-1,83696403
10
29,21767644
0,019307668
0,06501072
11
29,62154764
-0,038191065
-0,128592882
12
31,63128768
0,066257842
0,223096339
13
39,5150184
0,092346476
0,310939206
14
40,22247986
0,286422667
0,964411862
15
40,34199277
-0,324632122
-1,093066666
16
42,50421479
-0,342999072
-1,154909902
17
42,71439266
-0,185585103
-0,624882371
18
44,08810423
0,023424382
0,078872082
19
49,97857946
-0,52596234
-1,770964307
20
52,20948706
-0,05468878
-0,18414223
21
52,42653349
0,17561958
0,591327524
22
52,45812886
0,02453499
0,082611604
23
52,73973973
0,098160829
0,330516676
24
54,25082246
0,24778252
0,83430688
25
58,04776125
-0,070133723
-0,236146792
26
59,45581562
-0,083228615
-0,280238517
27
59,70583112
0,476752824
1,605271274
28
60,94354525
-0,097469263
-0,328188108
29
61,74716652
0,477060994
1,606308911
30
64,04950712
-0,511129115
-1,721019454
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 3,000827144*x+ 4,032964241
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,000827. При этом константа изменяется по сравнению с заданной приблизительно на 0,03296.
Vi=1,5Vi:
Ui
1,5Vi
-0,33978
-0,93298
-0,52754
0,321556
0,561159
1,264011
-0,21023
-0,28729
0,55333
-0,18213
-0,07485
1,122017
0,536907
0,044519
0,428237
1,949556
1,147537
-1,51756
-1,22736
0,177641
0,457453
0,005479
0,031557
0,320488
-0,34181
0,405273
-0,3208
0,988086
-0,63071
-0,84498
-0,49658
-0,89829
-0,97769
-0,42588
-0,06608
0,202288
-0,3185
-1,441
0,230928
-0,02534
-0,86298
0,665769
-0,86812
0,212541
-0,01716
0,433652
-0,47807
0,883766
0,03681
-0,06684
-0,22203
-0,10496
-0,0324
1,575188
-0,16564
-0,14645
-0,26828
1,577801
-0,20672
-1,38487
Yi=Y+1,5Vi
Xi
Yi=Y+1,5Vi
5,00
18,0670153
5,53
20,9228623
6,43
24,5529299
6,51
23,2378431
6,83
24,3098286
7,16
26,6068955
7,83
27,5413303
8,05
30,1041938
8,16
26,955695
8,39
29,3554117
8,53
29,5870093
9,20
31,911204
11,82
39,8775468
12,06
41,1676268
12,10
39,4540412
12,82
41,5623544
12,89
42,24489
13,35
44,2463874
15,31
48,4919497
16,05
52,1379078
16,13
53,045999
16,14
52,624358
16,23
53,1270016
16,73
55,0877825
18,00
57,9330657
18,47
59,3026116
18,55
61,2327093
18,96
60,7484395
19,23
63,2760945
20,00
62,615134
Уравнение регрессии: y= 3,002481432*x+ 4,098892723
коэффициент детерминации R2: 0,996193916
доверительные интервалы для коэффициентов:
Y: (3,144605477; 5,053179969)
X : (2,930638292; 3,074324572).
стандартные ошибки коэффициентов: Y: 0,465867432 X: 0,035072646
F-статистика: 7328,643424.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,11129988
-1,044284559
-1,172067872
2
20,71393059
0,208931721
0,234497538
3
23,40376617
1,149163752
1,289780551
4
23,64017481
-0,402331732
-0,451562835
5
24,6078009
-0,297972248
-0,334433461
6
25,60154189
1,005353654
1,128373208
7
27,61513878
-0,073808488
-0,082840023
8
28,27350937
1,830684376
2,054695076
9
28,59238615
-1,6366912
-1,83696403
10
29,29748868
0,057923004
0,06501072
11
29,70158253
-0,114573195
-0,128592882
12
31,71243049
0,198773525
0,223096339
13
39,60050734
0,277039427
0,310939206
14
40,3083588
0,859268
0,964411862
15
40,4279376
-0,973896367
-1,093066666
16
42,5913516
-1,028997217
-1,154909902
17
42,80164534
-0,55675531
-0,624882371
18
44,17611421
0,070273147
0,078872082
19
50,06983672
-1,577887019
-1,770964307
20
52,30197417
-0,164066341
-0,18414223
21
52,51914025
0,52685874
0,591327524
22
52,55075303
0,073604971
0,082611604
23
52,83251915
0,294482486
0,330516676
24
54,34443491
0,74334756
0,83430688
25
58,14346687
-0,210401168
-0,236146792
26
59,55229746
-0,249685844
-0,280238517
27
59,80245079
1,430258473
1,605271274
28
61,04084725
-0,292407788
-0,328188108
29
61,84491154
1,431182983
1,606308911
30
64,14852136
-1,533387345
-1,721019454
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 3,002481432*x+ 4,098892723
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,002481. При этом константа изменяется по сравнению с заданной приблизительно на 0,09889.
III.
1. Используя генератор случайных чисел, находим по 30 значений Ui , Vi.Выборку производим из генеральной совокупности N(0;2).
Ui
Vi
0,902655
0,260757
-0,88288
-0,70846
1,771532
4,823814
-0,53499
-1,62389
2,901897
2,311372
2,35671
0,011551
1,067474
-0,01354
0,907062
-2,47771
-0,19715
-0,81773
-0,28407
-0,54451
0,74835
0,724449
0,36609
-1,62836
1,247126
0,04246
-1,05005
-1,07188
-0,84576
-1,06307
2,296219
-0,49956
-1,30035
0,838904
1,616459
3,673795
0,573948
2,270094
4,074464
3,471778
0,477646
-3,86124
-0,18024
-2,20909
0,706505
-0,10294
-0,10416
-2,30452
-1,4826
0,484101
0,352875
-2,26195
-3,49128
1,007611
2,122201
6,252667
-2,38327
-2,36716
0,274958
-3,21194
2. Затем, полагая вместо Xi значения X+Ui, а вместо Yi — Y+Vi, получим две зависимые выборки и найдем по полученным значениям уравнение линейной регрессии.
Xi
Yi
5,902655
19,26076
4,65089
19,89285
8,201172
28,11273
5,973383
21,90124
9,73255
26,80333
9,518336
25,49643
8,899744
27,48327
8,958608
25,67693
7,960601
27,65552
8,108516
28,63326
9,275527
30,30598
9,562995
29,96235
13,07122
39,51473
11,0098
39,10766
11,25392
39,23596
15,11643
41,96109
11,58991
43,50967
14,96449
47,71789
15,88493
52,20305
20,12888
55,63502
16,60439
48,51899
15,95703
50,20273
16,93762
52,59041
16,63051
51,89949
16,51737
58,48401
18,82207
57,14562
15,06123
60,66513
21,08717
67,14756
16,8495
59,33113
20,27496
60,78806
y= 2,950504846*x+ 3,41182941
коэффициент детерминации R2: 0,913294175
доверительные интервалы для коэффициентов:
Y: -1,379711969; 8,203370788)
X : (2,598577611; 3,302432082).
стандартные ошибки коэффициентов: Y: 2,339152164 X: 0,171805123
F-статистика: 294,9310157.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
20,82764248
-1,566882483
-0,368909635
2
17,13430405
2,758545951
0,649477029
3
27,6094258
0,503304197
0,118498847
4
21,03632487
0,864915133
0,203637177
5
32,12776609
-5,324436093
-1,253594828
6
31,49572585
-5,999295854
-1,412485026
7
29,67056781
-2,187297813
-0,514981338
8
29,84424445
-4,167314449
-0,981160023
9
26,89962207
0,755897926
0,17796997
10
27,33604592
1,297214077
0,30541842
11
30,77931726
-0,473337257
-0,111443377
12
31,62749318
-1,665143183
-0,392044311
13
41,97852067
-2,463790673
-0,580079316
14
35,89629408
3,211365921
0,756089779
15
36,61656352
2,619396482
0,616715428
16
48,01294391
-6,051853913
-1,42485939
17
37,60790814
5,90176186
1,389521446
18
47,56463457
0,153255431
0,036082735
19
50,28039711
1,922652886
0,45267286
20
62,80218152
-7,16716152
-1,687449422
21
52,40316117
-3,884171169
-0,914496259
22
50,49311961
-0,290389614
-0,068369854
23
53,386363
-0,795952998
-0,187400608
24
52,48023625
-0,580746247
-0,136731943
25
52,14639722
6,337612783
1,492138973
26
58,94642758
-1,800807582
-0,423985382
27
47,85006088
12,81506912
3,017202965
28
65,62961502
1,517944977
0,3573877
29
53,12635335
6,204776646
1,460863794
30
63,23319254
-2,445132541
-0,575686411
Новое уравнение регрессии сравним с первоначальным :
y = 3*x + 4 y= 2,950504846*x+ 3,41182941
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,0495. При этом константа изменяется по сравнению с заданной приблизительно на 0,5882.
3. Изменяя только Yi(Yi = Y + Vi) и оставляя неизменными X, получим пару выборок, снова найдем уравнение линейной регрессии.
X
Yi
5,00
19,26076
5,53
19,89285
6,43
28,11273
6,51
21,90124
6,83
26,80333
7,16
25,49643
7,83
27,48327
8,05
25,67693
8,16
27,65552
8,39
28,63326
8,53
30,30598
9,20
29,96235
11,82
39,51473
12,06
39,10766
12,10
39,23596
12,82
41,96109
12,89
43,50967
13,35
47,71789
15,31
52,20305
16,05
55,63502
16,13
48,51899
16,14
50,20273
16,23
52,59041
16,73
51,89949
18,00
58,48401
18,47
57,14562
18,55
60,66513
18,96
67,14756
19,23
59,33113
20,00
60,78806
y= 2,963989827*x+ 4,427294273
коэффициент детерминации R2: 0,973208572
доверительные интервалы для коэффициентов:
Y: (1,898559719; 6,956028827)
X : (2,773615042; 3,154364613).
стандартные ошибки коэффициентов: Y: 1,234486867 X: 0,092937858
F-статистика: 1017,110415.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,24724341
0,01351659
0,005725019
2
20,8293285
-0,936478498
-0,396650121
3
23,48468057
4,628049429
1,960233334
4
23,71805847
-1,816818474
-0,769522493
5
24,67327966
2,130050341
0,902193407
6
25,65428096
-0,157850962
-0,066858559
7
27,64206368
-0,158793684
-0,067257854
8
28,29199401
-2,615064008
-1,107623355
9
28,60678281
-0,951262807
-0,402912089
10
29,30284597
-0,669585972
-0,283606466
11
29,70175936
0,604220635
0,255920653
12
31,68682839
-1,72447839
-0,730411392
13
39,47378064
0,040949362
0,017344306
14
40,1725575
-1,064897499
-0,451042627
15
40,2906033
-1,054643299
-0,44669941
16
42,42628248
-0,465192483
-0,197034588
17
42,63388027
0,875789731
0,370945093
18
43,99072854
3,727161457
1,578657756
19
49,80889394
2,394156056
1,014056695
20
52,01241554
3,622604458
1,53437212
21
52,22679757
-3,70780757
-1,570460321
22
52,25800508
-2,05527508
-0,870521973
23
52,53615898
0,054251024
0,022978291
24
54,02869208
-2,129202078
-0,901834121
25
57,77902071
0,704989291
0,298601718
26
59,16979019
-2,02417019
-0,857347343
27
59,41673658
1,248393424
0,528763238
28
60,63925687
6,508303129
2,756624132
29
61,43301311
-2,101883112
-0,890263037
30
63,70709082
-2,91903082
-1,236370009
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 2,963989827*x+ 4,427294273
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,036. При этом константа изменяется по сравнению с заданной приблизительно на 0,4273.
4.Полагая вместо Vi значения 0,5Vi; 1,5Vi и так далее, получим новые пары выборок и вновь вычислим уравнение линейной регрессии.
Vi=0,5Vi:
Ui
0,5Vi
0,902655
0,130379
-0,88288
-0,35423
1,771532
2,411907
-0,53499
-0,81195
2,901897
1,155686
2,35671
0,005776
1,067474
-0,00677
0,907062
-1,23886
-0,19715
-0,40887
-0,28407
-0,27226
0,74835
0,362225
0,36609
-0,81418
1,247126
0,02123
-1,05005
-0,53594
-0,84576
-0,53154
2,296219
-0,24978
-1,30035
0,419452
1,616459
1,836898
0,573948
1,135047
4,074464
1,735889
0,477646
-1,93062
-0,18024
-1,10455
0,706505
-0,05147
-0,10416
-1,15226
-1,4826
0,242051
0,352875
-1,13098
-3,49128
0,503806
2,122201
3,126334
-2,38327
-1,18358
0,274958
-1,60597
Yi = Y+0,5Vi
X
Yi=Y+0,5Vi
5
19,130379
5,53
20,247076
6,43
25,700826
6,51
22,713187
6,83
25,647644
7,16
25,490654
7,83
27,490041
8,05
26,915782
8,16
28,064386
8,39
28,905515
8,53
29,943755
9,20
30,776536
11,82
39,493504
12,06
39,6436
12,10
39,767485
12,82
42,210866
12,89
43,090218
13,35
45,880997
15,31
51,067998
16,05
53,899133
16,13
50,44961
16,14
51,307272
16,23
52,64188
16,73
53,051756
18,00
58,241959
18,47
58,2766
18,55
60,161327
18,96
64,021228
19,23
60,514714
20
62,39403
Уравнение регрессии: y= 2,981994985*x+4,2136464
коэффициент детерминации R2: 0,993246535
доверительные интервалы для коэффициентов:
Y: (2,949279007; 5,478013793)
X : (2,886807583; 3,077182386).
стандартные ошибки коэффициентов: Y: 0,61724349 X: 0,046468933
F-статистика: 4118,019632.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,12362132
0,006757177
0,005724072
2
20,715317
-0,468240808
-0,396651406
3
23,38679937
2,31402636
1,960234548
4
23,62159496
-0,908407965
-0,769521345
5
24,58261876
1,065025609
0,902193696
6
25,56957929
-0,078925712
-0,066858749
7
27,56943707
-0,079396252
-0,067257348
8
28,22331548
-1,307533194
-1,107624262
9
28,54001651
-0,475630982
-0,402911695
10
29,240308
-0,334792685
-0,283606185
11
29,64164465
0,302110049
0,255920402
12
31,63877224
-0,862235975
-0,730408597
13
39,47302739
0,020476547
0,017345885
14
40,17604906
-0,532448672
-0,45104252
15
40,29481195
-0,527326592
-0,446703556
16
42,4434646
-0,232598222
-0,197036247
17
42,65232347
0,437894849
0,370945044
18
44,0174141
1,863582642
1,578659233
19
49,87092274
1,197075097
1,014054119
20
52,08782993
1,811302582
1,534372278
21
52,30351425
-1,853904136
-1,570460474
22
52,33491133
-1,027639563
-0,870523607
23
52,61475491
0,027125107
0,022977946
24
54,11635461
-1,06459837
-0,901831777
25
57,88946512
0,352493829
0,298600999
26
59,28868301
-1,01208332
-0,85734576
27
59,53712951
0,624197278
0,528763669
28
60,76707617
3,254151584
2,756623895
29
61,56565419
-1,050940174
-0,890261784
30
63,85354609
-1,45951609
-1,236370472
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 2,981994985*x+4,2136464
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,01801. При этом константа изменяется по сравнению с заданной приблизительно на 0, 21365.
Vi=1,5Vi:
Ui
1,5Vi
0,902655
0,391136
-0,88288
-1,06269
1,771532
7,235721
-0,53499
-2,43584
2,901897
3,467058
2,35671
0,017327
1,067474
-0,02031
0,907062
-3,71657
-0,19715
-1,2266
-0,28407
-0,81677
0,74835
1,086674
0,36609
-2,44254
1,247126
0,06369
-1,05005
-1,60782
-0,84576
-1,59461
2,296219
-0,74934
-1,30035
1,258356
1,616459
5,510693
0,573948
3,405141
4,074464
5,207667
0,477646
-5,79186
-0,18024
-3,31364
0,706505
-0,15441
-0,10416
-3,45678
-1,4826
0,726152
0,352875
-3,39293
-3,49128
1,511417
2,122201
9,379001
-2,38327
-3,55074
0,274958
-4,81791
Yi=Y+1,5Vi
X
Yi=Y+1,5Vi
5
19,391136
5,53
19,538616
6,43
30,52464
6,51
21,089297
6,83
27,959016
7,16
25,502205
7,83
27,476501
8,05
24,438072
8,16
27,246656
8,39
28,361005
8,53
30,668204
9,20
29,148176
11,82
39,535964
12,06
38,57172
12,10
38,704415
12,82
41,711306
12,89
43,929122
13,35
49,554792
15,31
53,338092
16,05
57,370911
16,13
46,58837
16,14
49,098182
16,23
52,53894
16,73
50,747236
18,00
58,72606
18,47
56,01465
18,55
61,168938
18,96
70,273895
19,23
58,147554
20
59,18209
Уравнение регрессии: y= 2,945984954*x+ 4,6409392
коэффициент детерминации R2: 0,940999679
доверительные интервалы для коэффициентов:
Y: (0,84783702; 8,43404138)
X : (2,660422749; 3,231547158).
стандартные ошибки коэффициентов: Y: 1,851730471 X: 0,1394068
F-статистика: 446,5736918.
Остатки и стандартные остатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
19,37086397
0,020271532
0,005724072
2
20,94333862
-1,404722425
-0,396651406
3
23,58256065
6,942079081
1,960234548
4
23,81452089
-2,725223896
-0,769521345
5
24,76393954
3,195076828
0,902193696
6
25,73898172
-0,236777137
-0,066858749
7
27,71468957
-0,238188757
-0,067257348
8
28,36067187
-3,922599581
-1,107624262
9
28,67354847
-1,426892945
-0,402911695
10
29,36538337
-1,004378055
-0,283606185
11
29,76187355
0,906330148
0,255920402
12
31,7348842
-2,586707926
-0,730408597
13
39,47453429
0,061429642
0,017345885
14
40,16906641
-1,597346015
-0,45104252
15
40,28639513
-1,581979776
-0,446703556
16
42,40910105
-0,697794666
-0,197036247
17
42,61543777
1,313684547
0,370945044
18
43,96404382
5,590747927
1,578659233
19
49,74686654
3,591225292
1,014054119
20
51,93700276
5,433907746
1,534372278
21
52,15008252
-5,561712407
-1,570460474
22
52,18110046
-3,082918689
-0,870523607
23
52,4575647
0,081375322
0,022977946
24
53,94103135
-3,19379511
-0,901831777
25
57,66857846
1,057481488
0,298600999
26
59,05089965
-3,036249959
-0,85734576
27
59,29634595
1,872591833
0,528763669
28
60,51144
9,762454753
2,756623895
29
61,30037454
-3,152820522
-0,890261784
30
63,56063827
-4,37854827
-1,236370472
Новое уравнение регрессии сравним с первоначальным:
y = 3*x + 4 y= 2,945984954*x+ 4,6409392
Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0,05402. При этом константа изменяется по сравнению с заданной приблизительно на 0, 6409.
Заключение
В данном случае максимально близким к истинной зависимости будет следующее уравнение:
y= 3,000827144*x+ 4,032964241.
Оно получается при дисперсии 0,5, неизменной выборке X, минимально измененной выборке Y. В этом случае коэффициент детерминации R² максимален (0,999575198),
стандартные ошибки коэффициентов минимальны (Y: 0,155289144; X: 0,011690882).
Сравнивая полученные для каждого вычисления графики, также можно прийти к выводу о том, что указанное ранее уравнение является наиболее точным по отношению к истинной зависимости.
Чем меньше дисперсия выборки и изменения выборок X иY, тем точнее уравнение линейной регрессии по отношению к истинной зависимости.
Таким образом, на основе данных, полученных в результате исследования, можно сделать следующие выводы:
Ø уравнение линейной регрессии зависит от дисперсии выборки;
Ø уравнение линейной регрессии зависит от изменения двух выборок X иY.