База курсовых работ, рефератов, научных работ! Otryvnoy.ru Рефераты, курсовые, дипломные работы

Критерий согласия Пирсона

Критерий согласия Пирсона

Федеральное агентство Российской Федерации по образованию

 

МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ

(ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

 

 

 

 

 

 

 

 

 

 

 

Курсовая работа по ТВ и МС

Критерий согласия Пирсона

 

 

 

 

 

 

 

 

 

 

 

 

 

Выполнил:

 

 

Проверил:

 

 

 

Москва, 20 г
Оглавление

 

Теоретическая часть

стр

Исходные данные

1.Основные непрерывные распределения

3

4

     2. Распределений хи-квадрат

6

     3.Выборка

6

     4.Понятие о точечном и интервальном оценивании.             Свойства точечных оценок: несмещенность и состоятельность


8

     5.Метод моментов. Метод максимального правдоподобия

9

6. Выборочные моменты

9

     7.Проверка гипотезы о законе распределения выборки по критерию согласия К. Пирсона (χ2 - хи-квадрат)

10

Практическая часть

12

Список использованной литературы

16

 

Вариант № 13

Проверка статистической гипотезы о законе распределения

Исходные данные:

набор наблюдений

-11,963

-19,197

-8,653

1,416

-16,534

0,409

-2,982

-12,845

-19,371

-16,969

-9,076

-2,590

0,527

-20,332

-5,936

-12,820

-7,841

-6,679

-20,562

-16,534

0,525

-21,010

-7,953

-10,732

-1,374

-12,326

-19,110

-16,415

-16,538

-1,626

-9,033

-6,583

0,031

-9,910

-4,721

-2,234

-2,665

-10,179

-9,175

-0,370

-3,627

0,568

-1,1395

-21,990

-5,854

1,330

-8,380

-16,095

-12,347

-4,892

-9,130

-3,684

-2,105

-15,098

-6,647

-5,758

Теоретическая часть

1.Основные непрерывные распределения

1). Равномерное распределение

СВ Х распределена равномерно на отрезке [a; b] (X~R(a; b)) , если плотность вероятности имеет вид:

 











mx= (a+b)/2

Dx = (b-a)2/12 =σx2

σx=(b-a)/2· √3


2) Экспоненциальное распределение

            λe-λe, x ≥ 0

fx(x)= 

            0, x < 0

              1-e-λx , x ≥ 0

Fx (x)=

                      0, x < 0

M[X]= ∫x fx(x) dx = ∫x λe-λxdx = 1/x∫te-tdt = 1/x

mx =1/λ


D[X]= M[X2] – (mx)2 = ∫x2 λe-λxdx- (1/x)2

Dx= 1/λ2

σ x= √Dx= 1/x

Этим распределением описываются многие важные величины: время безотказной работы изделия, длина промежутка времени между звонками на телефонной станции, время обслуживания клиента в системе массового обслуживания. При этом параметр λ имеет следующий смысл: если х- время обслуживания клиента (x ≥ 0), то mx=M[X] среднее время обслуживания клиента

mx=1/λ; λ=1/mx – ожидаемое количество обслуживания клиентов в единицу времени.

T~E(λ)

P(T1 ≤ T ≤ T2)  = FT(T2) – FT(T1) = (1-exp{-λ ·T2}) – (1-exp{-λ ·T1}) =

= exp{-λ ·T1} – exp{-λ ·T2}

0 ≤ T1 < T2


3).Нормальное (гауссовское) распределение.

CВ Х имеет нормальное распределение с параметрами а и D>0, если ее плотность вероятности имеет следующий вид

fx(x)=(1/√2π·D) exp{-(x-a)2/ D}

X~N(a; D)

M[X]= mx= a

D[X]= Dx= σx2= D

X~N(mx; σx2)         σ1        σ2

σ2> σ1

m2> m1

Функция распределения нормальной СВ имеет следующий вид:

Fx(x)= Ф((x- mx)/ σx), где


Ф(z)= (1/√2π)∫exp{-x2/2}dx – интеграл вероятности или функция Лапласа

Замечание: часто вместо функции Ф(z) используется функция

Ф0(z)= (1/√2π)∫exp{-x2/2}dx


Связь между функциями следующая:

           0,5+ Ф0(z), если z > 0

Ф(z)=

           0,5– Ф0(z), если z < 0

Функция Лапласа обладает следующими свойствами:

1)     0 ≤ Ф(z) ≤ 1

2)     Ф(z) возрастает

3)     Ф(z)=1, если z > 5

4)     Ф(z)=0, если z < -5

 

Вычисление вероятности попадания гауссовской величины в отрезок

X~N(mx; σx2)

Fx(x) = Ф((x- mx)/ σx) = Fx(x)= Ф((x- mx)/ √Dx)

P(α ≤ X ≤ β) = Fx(β) – Fx(α) = Ф((β - mx)/ σx) – Ф((α - mx)/ σx)

Замечание: пусть  mx=0, σx2=1, тогда Х имеет распределение

X~N(0; 1) – стандартное нормальное распределение

Fx(x) = Ф(x)

Следовательно функция Лапласа есть распределение стандартной нормальной СВ

P(α ≤ X ≤ β) = Ф(β) – Ф(α) – для X~N(0; 1)


2. Распределений хи-квадрат.

Пусть Uk, k= 1,n, - набор из n  независимых нормально распределенных СВ, Uk~N(0; 1). Тогда СВ


Хn=∑Uk2 имеет распределение хи-квадрат с n степенями свободы, что обозначается как Хn~χ2(n).


Число χ2(n) находится по таблице распределения χ2. Это число зависит от степеней свободы n и от уровней значимости α.

Стандартный α=0,05


3.Выборка

Х1, Х2, …, Хn независимые одинаково распределенные СВ.

Такая последовательность называется выборкой объема n.

Пусть в результате конкретного опыта СВ Х приняла какое-то значение

Х1→х1, Х2→х2, …, Хn→хn

Хk – реализация СВ  Хk в k-м опыте k=1+n

{ x1, x2, …, xn} – реализация выборки объема n


По условию СВ Х1, Х2, …, Хn, которые называются элементами выборки одинаково распределены, т.е. функция распределения Fx (x) = Fx (x) для всех k, i = 1,…,n

Fx (x) = F1 (x) = F(x)  – функция распределения любого элемента выборки

Выборка соответствует закону распределения F(x)

f(x)= dF(x)/dx – плотность вероятности, которой соответствует выборка.


M[Xk] = M[X1] =∫x f(x)dx = a =const


D[Xk] = D[X1] =∫x2 f(x)dx - a2 = σ2 = const


(a; σ2 ) – параметры выборки


Оценивание математического ожидания и дисперсии по выборке


{ x1, x2, …, xn} – реализация выборки.

Оценкой мат. ожидания а по этой выборке называется величина:


Xn = 1/n ∑xk – выборочное среднее


Реализацией выборки называется неслучайный вектор zn = col(x1,…, xn), компоненты которого являются реализации соответствующих элементов выборки Xi, i=1,n.


Реализацию выборки можно так же рассматривать как последовательность

x1,…, xn из n реализаций одной и той же СВ Х, полученных в серии из n независимых одинаковых опытов, проводимых в одинаковых условиях.


Оценкой параметра называется его приближенное значение, построенное по выборке наблюдений.

Т.о. Хn= аn – оценка для а

Замечание: можно показать, что оценка Хn обладает следующим свойством:

1)     Хn→a при n → ∞ (состоятельность оценки Хn)

2)     M[Xn]=a (несмещенность оценки)

Выборочной дисперсией называется величина


Sn2= (1/(n-1)) ∑(xk – Xn)2


Выборочная дисперсия является оценкой для дисперсии

Sn2=σ2

σn = √ Sn2 = Sn – оценка среднего квадратичного отклонения.


Выборочная (эмпирическая) функция распределения.

Упорядочить элементы выборки по возрастанию

Мn(A) – случайное число появлений события A в серии из n испытаний

Wn(A) = Мn(A)/n – частота события А в серии из n испытаний

Рассмотрим выборку Zn, порожденную СВ Х с функцией распределения  Fx(x). Определим для каждого х Є R1 событие Aх= {X ≤ x}, для каждого P(Aх) = Fx(x).  Тогда Мn(Aх) – случайное число элементов выборки Zn, не превосходящих х

Определение. Частота Мn(Aх) события Aх как функция х Є R1 , называется выборочной (эмпирической) функцией распределения СВ Х и обозначается

Fn(x) = Мn(Aх).


Для каждого фиксированного х Є R1 СВ Fn(x) является статистикой, реализациями которой являются числа 0, 1/n, 2/n,…,n/n, и при этом

P{Fn(x) = k/n}= P{Мn(Aх)=k}, k= 1,n.

Любая реализация Fn(x) выборочной функции Fn(x) является ступенчатой функцией. В точках х(1)<…< х(n), где х(k) – реализация порядковой статистики X(k), функция Fn(x) имеет скачки величиной 1/n и является непрерывной справа.

Свойства.

1)     M [Fn(x)]= F(x), для любого х Є R1 и любого n ≥ 1

2)     Sup| Fn(x)- F(x)| → 0 при n → ∞

3)     dn(x) = M[(Fn(x)- F(x))2] = F(x)(1-F(x))/n ≤ 1/4n

4)     (Fn(x)- F(x))/√dn(x) →U при n → ∞, где СВ U имеет распределение

     N(0; 1)

 

Гистограмма

1)     Построить вариационный ряд выборки, т.е. элементы выборки упорядочить по возрастанию {x1,…, xn} → {x1,…, xn}

     х(1)<…< х(n)

Промежуток Δ= [x1, xn] называется размахом выборки.

Все наблюдения принадлежат этому промежутку.

2)Группировки выборки.

Для этого размах выборки делится на k промежутков одинаковой длины.

|Δi| - длина промежутка Δi

|Δ1|=|Δ2|=…=|Δn|=|Δ|/k

nm – число наблюдений попавших в интервал

Группировкой выборки называется набор следующего вида.

(Δm; nm) , m=1,…,k – статистический ряд

2)     Построение гистограммы

Для каждого промежутка Δm находится частота

Pm*= nm/n

Над каждым промежутком Δm строится прямоугольник, основанием которого является этот промежуток, а высота равна

hm= Pm*/ |Δm|

Гистограммой называется кусочно-постоянная функция, образованная верхними основаниями построенных прямоугольников.

Гистограмма является оценкой плотности вероятности, построенной по выборке.

4.Понятие о точечном и интервальном оценивании. Свойства точечных оценок: несмещенность и состоятельность.


Оценкой параметра называется его приближенное значение, построенное по выборке наблюдений (θ)

Точечной (выборкой) оценкой неизвестного параметра распределения

θ Є Θ называется произвольная статистика Θ(Zn), построенная по выборке Zn и принимающая значение в множестве Θ.

Свойства:

1) Оценка θ(Zn) параметра θ называется состоятельной, если она сходится по вероятности к θ, т.е. θ(Zn) → θ при  n → ∞ для любого θ Є Θ.

2) Оценка θ(Zn) параметра θ называется несмещенной, если ее МО равно θ, т.е. M[θ(Zn)] = θ для любого θ Є Θ.

 

5.Метод моментов. Метод максимального правдоподобия.

Оценкой максимального правдоподобия (МП-оценкой) параметра θ Є Θ называется статистика θ(zn), максимизирующая для каждой реализации Zn

функцию правдоподобия, т.е.

θ(zn) = arg max L(zn, θ)


Способ построения МП-оценки называется методом максимального правдоподобия.


Пусть vi, i=1,s, - выборочные начальные моменты. Рассмотрим систему уравнений

vi (θ)= vi, i=1,s

и предположим, что ее можно решить относительно параметров θ1,…, θs, т.е. найти функции θi=φi(v1,…, vs), i=1,s

Решением полученной системы уравнений θi=φi(v1,…, vs), i=1,s, называется оценкой параметра θ, найденной по методу моментов, или ММ-оценкой.

                          

6. Выборочные моменты

Пусть имеется выборка Zn=col(x1,.., xn) которая порождена СВ Х с функцией распределения Fx(x).

Для выборки Zn объема n выборочными начальными и центральными моментами порядка r СВ Х называются следующие СВ:


vr(n) = 1/n∑(xk)r, r =1,2,….;


μ r(n) =  1/n∑(xk- vr(n))r, r =2,3,….;


Выборочным средним и выборочной дисперсией СВ Х называются соответственно:


mX(n)= v1(n) = 1/n∑xk


dX(n)= μ 2(n) =  1/n∑(xk- mX(n))2

 

7.Проверка гипотезы о законе распределения выборки по критерию согласия К. Пирсона (χ2 - хи-квадрат)


СВ Х имеет распределение χ2 с r степенями свободы. Если ее можно представить в следующем виде Х = ∑Хi2 , где Хi~ N(0; 1)

Х= χ2(r)

Плотность вероятности этой СВ имеет следующий график:


Критическая и доверительная область

Х= χ2(r)

Критической областью значений СВ Х называется промежуток на вещественной оси, в которой СВ Х попадает с некоторой малой вероятностью α.

Это число α называется уровнем значимости критической области.

S – критическая область

P(XЄS) = α<<1

S=R’- S – доверительная область

P(XЄS) = 1-α – близка к 1

Для задания критической области S распределения Пирсона поступают следующим образом:

P(X ≥ χкр2(r)) = α

S = [χкр2(r); +∞)

P(XЄS) = α – по построению

S = [0, χкр2(r)) – доверительная область


Замечание: число χ2(r) находится по таблице распределения χ2. Это число зависит от степеней свободы r и от уровней значимости α.

Стандартный α=0,05


Алгоритм критерия Пирсона

1) Формулировка гипотезы

Н0: имеющаяся выборка соответствует закону распределения F(x)

2) Производится группировка выборки и вычисление частот {Pm*}, m=1÷k

3) Для каждого подынтервала  Δm вычисляется вероятность попадания реализации выборки в этот промежуток на основе принятой гипотезы

Δm=[zm; zm+1]

Pm= F(zm+1) – F(zm); m=1÷k

4)     Вычисляется статистика критерия Пирсона


gn=(n∑(Pm+ Pm*)2/ Pm)+n(P0+ Pm+1),


где P0+ Pm+1=1-∑ Pm, n-объем выборки


Теорема. Если проверяемая гипотеза Н0- верна, то СВ gn – называемая статистикой критерия Пирсона имеет распределение

gn ~ χ2(r)

r=k+n1- n2-1

k – число интервалов

n1 – число дополнительных интервалов

n2 – число неизвестных параметров распределения F(x), которые были заменены их оценкой.

5)     Принятие решения.

Строится критическая область S

S = [χкр2(r); +∞)

Если gn Є S, то гипотеза отвергается

Если gn Є S, то гипотеза принимается, как не противоречащая данным

Практическая часть

Вариант № 13

Исходные данные:

набор наблюдений

-11,963

-19,197

-8,653

1,416

-16,534

0,409

-2,982

-12,845

-19,371

-16,969

-9,076

-2,590

0,527

-20,332

-5,936

-12,820

-7,841

-6,679

-20,562

-16,534

0,525

-21,010

-7,953

-10,732

-1,374

-12,326

-19,110

-16,415

-16,538

-1,626

-9,033

-6,583

0,031

-9,910

-4,721

-2,234

-2,665

-10,179

-9,175

-0,370

-3,627

0,568

-1,1395

-21,990

-5,854

1,330

-8,380

-16,095

-12,347

-4,892

-9,130

-3,684

-2,105

-15,098

-6,647

-5,758



1.Найдем оценку математического ожидания и выборочную дисперсию.

M[X]= X= 1/n · ΣXk = 1/56 · [-11,963+(-19,371) +…+ (-5,758)]= -8,661

D[X]= S2= 1/n · Σ(Xk – X) 2= 1/56 · [(-11,963 – (-8,661)) 2 + (-19,371 – (-8,661))2 +…+

+ (-5,758 – (-8,661)) 2 = 46,075

M[X]= -8,661

D[X]= 46,075


2. Построение графика выборочной функции распределения и гистограммы.

1). Построим вариационный ряд выборки


-21,990

-16,969

-12,845

-9,910

-7,953

-5,758

-2,590

0,031

-21,010

-16,538

-12,820

-9,175

-7,841

-4,892

-2,234

0,409

-20,562

-16,534

-12,347

-9,130

-6,679

-4,721

-2,105

0,525

-20,332

-16,534

-12,326

-9,076

-6,647

-3,684

-1,626

0,527

-19,371

-16,415

-11,963

-9,033

-6,582

-3,627

-1,395

0,568

-19,197

-16,095

-10,732

-8,653

-5,936

-2,982

-1,374

1,330

-19,110

-15,098

-10,179

-8,380

-5,854

-2,665

-0,370

1,416


 2). Вычислим выборочные функции распределения

F(x) = mx/n,

mx – количество наблюдений меньших или равных числа x

F(-21,99)=1/56=0,02

F(-21,01)=2/50=0,04

……………………….

F(1,33)=49/50=0,98

F(1,416)=50/50=1

3.Построение гистограммы.

1).m – номер интервала , m=1,…,k

k – число интервалов

nm – число наблюдений попавших в каждый интервал

Pm* = nm /n – частота

|∆m| - длина каждого интервала

hm = Pm*/|∆m| - высота столбца

2). Группировка выборки

 K=8

|∆1|=|∆2|=…=|∆k|=2,926

Статистический ряд  (∆m; nm), m=1,…,k

([-21,99; -19,065]; 7), m= 1

((-19,065; -16,139]; 5), m= 2

((-16,139; -13,213]; 2), m= 3

((-13,213; -10,287]; 6), m= 4

((-10,287; -7,361]; 10), m= 5

((-7,361; -4,436]; 8), m= 6

((-4,436; -1,51]; 8), m= 7

((-1,51; 1,416];10), m= 8


3).Найдем частоты для каждого интервала

P1*= 0,125

P2*= 0,09

P3*= 0,036

P4*= 0,107

P5*= 0,179

P6*= 0,143

P7*= 0,143

P8*= 0,179


4).Найдем высоты столбцов гистограммы

h1= 0,043

h2= 0,03

h3= 0,012

h4= 0,037

h5= 0,061

h6= 0,049

h7= 0,049

h8= 0,061


5). H0 : имеющаяся выборка соответствует закону распределения R[a; b].

4. 1). Находим

a= -21,99

b= 1,416

2). Найдем вероятности попадания СВ в интервалы

     P(XЄ∆1)= P(XЄ∆2)= ...= P(XЄ∆k)= 0,125

     P(XЄ∆0)= (X Є (-; -21,99))= 0

     P(XЄ∆k+1)= (X Є (1,416; +))= 0

3). Статистика критерия Пирсона


gn=(nΣ(Pm- Pm*)2/ Pm) + n(P0 + Pk+1)


g56= 7,143


5.  Принятие решения

χα2(r) –  квантиль распределение хи-квадрат уровня α с числом степеней свободы r.

r = k+ n1– n2– 1

k – количество интервалов

n1 – число дополнительных интервалов

n2 – число неизвестных параметров закона распределения, для которых были сделаны оценки

r = 5

 

χ0,952(5)= 11,07 (по таблице)

Доверительная область [0; 11,07]

7,143 Є [0; 11,07] – гипотеза H0 принимается с вероятностью 0,95

 χ0,92(5)= 9,24 (по таблице)

Доверительная область [0; 9,24]

7,143 Є [0; 9,24] – гипотеза H0 принимается с вероятностью 0,9


6. Найдем интервал, в который СВ X попадает с вероятностью 0,99

P(∆1≤ X ≤ ∆2)= 0,99

∆1 и ∆2 Є [-21,99; 1,416]

(∆1- (-21,99))/(1,416-(-21,99)) – (∆2- (-21,99))/(1,416-(-21,99))=0,99

∆1- ∆2=23,172

если ∆1= -21,99, тогда ∆2= 1,182

СВ Х попадает в [-21,99; 1,182] с вероятностью 0,99








Список использованной литературы

1.     Конспект лекций по курсу ТВиМС

2.     Теория вероятностей и математическая статистика. А.И. Кибзун и др. М. Физматлит 2005













Наш опрос
Как Вы оцениваете работу нашего сайта?
Отлично
Не помог
Реклама
 
Мнение авторов может не совпадать с мнением редакции сайта
Перепечатка материалов без ссылки на наш сайт запрещена