Posts Tagged ‘Statistika Pas Algirdas Javtokas’

Uždavinys apie vairavimą ir alų

gruodžio 5, 2009

Matuojamas laikas, reikalingas specialiai vairavimo užduočiai atlikti. Tirtos keturios pradedančiųjų vairuotojų grupės. Pirmos grupės vairuotojai prieš užduotį nervus ramino vienu bokalu alaus, antrosios – dviem, trečiosios – trimis, ketvirtosios – keturis bokalais. Tikriname, ar  vidutinis užduoties atlikimo laikas tiesiškai didėja didėjant išgertų bokalų skaičiui. Reikšmingumo lygmuo \alpha=0,01.

Grupė 1 2 3 4
Laikas 7,4 9,2 11 12
8,8 10 12,1 10,9
6,3 8,4 11,3 13,8
8,4 10,1 10,7 13,1
9,4 11,1 11,4 11,8
8,3 10,2 10,2 12,3
8 10,8 9,8 12,5
9,1 9,9 10,9 12,4

Tikriname hipotezė apie tiesinį vidurkių trendą:

\left\{\begin{matrix}H_0: vidurkiai\:nesudaro\:tiesinio\:trendo\\ H_1: vidurkiai\:sudaro\:tiesini\:trenda\end{matrix}\right.

Apskaičiuojame \overline{x}_1=8,21, \overline{x}_2=9,96, \overline{x}_3=10,92, \overline{x}_4=12,35, MSW=0,745. Iš kontrastų koeficientų trendams lentelės pasirenkame koeficientus: C_1=-3, C_2=-1, C_3=1, C_4=3. Statistikos reikšmė

F=\frac{(-3\cdot8,21-9,96+10,92+3\cdot12,35)^2}{0,745(9+1+1+9)/8}=96,7

Kadangi 96,7>7,63=F_{0,01}(1,28), tai H_0 atmetame. Gavome statistiškai reikšmingą patvirtinimą, kad bokalų skaičiui didėjant reikiamo laiko užduočiai atlikti vidurkiai tiesiškai didėja.

P.S. Atleiskit, kad nėra dviejų nosinių raidžių hipotezės formulavime, LaTex’as nerašo 🙂

Grupė 1 2 3 4
Laikas 7,4 9,2 11 12
8,8 10 12,1 10,9
6,3 8,4 11,3 13,8
8,4 10,1 10,7 13,1
9,4 11,1 11,4 11,8
8,3 10,2 10,2 12,3
8 10,8 9,8 12,5
9,1 9,9 10,9 12,4

Durbino – Vatsono kriterijus

gruodžio 5, 2009

Kartais prognozės liekamosios paklaidos būna priklausomos, pvz., akcijų kursų kitimas nėra visiškai atsitiktinis. Regresijos modeliai su koreliuojančiomis liekanomis nagrinėjami laiko eilučių teorijoje. Durbino – Vatsono kriterijus plačiai taikomas šioje teorijoje, kai norima nusakyti, ar yra vadinamas autoregresijos modelis. Tuo tarpu mus domina, ar autoregresijos nėra. Žingsniai, kaip naudoti šį kriterijų:

1.  Prielaida. Regresijos modelio paklaidas sieja ryšys

e_i=\rho e_{i-1}+z_i;

čia z_i\sim N(0, \sigma ^2) ir z_1, z_2, ... yra nepriklausomi atsitiktiniai dydžiai. Paklaidos e_i nekoreliuoja, jeigu \rho=o.

2.  Statistinė hipotezė. \left\{\begin{matrix}H_0: \rho =0\\ H_1: \rho \neq 0\end{matrix}\right.

3.  Kriterijaus statistika. d=\frac{\sum_{i=2}^{n}(\widehat{e}_i-\widehat{e}_{i-1})^2}{\sum_{i=1}^{n}\widehat{e}_i^2}.

4. Sprendinio priėmimo taisyklė. Tegu reikšmingumo lygmuo 0,05. Iš lentelės randame atitinkamas d_l ir d_U reikšmes. Hipotezė H_0 atmetama (taigi autokorekcija yra), jei d<d_L arba d>4-d_L. Hipotezė H_0 neatmetama (liekanų autokotekcija statistiškai nereikšminga), jei d_U<d<4-d_U. Jokių statistinių statistinių išvadų daryti negalima, kai d_L\leq d\leq d_U arba 4-d_U\leq d\leq 4-d_L.

Pastaba.

Durbino – Vatsono statistika d kinta nuo 0 iki 4. Kuo d arčiau 2, tuo mažiau tikėtina, kad autokorekcija yra.

Pavyzdys.

Paskaičiuokime uždavinio apie ledus( https://rucike08.wordpress.com/2009/12/05/vasara-prisiminus/ ) Durbino – Vatsono kriterijų. Jis bus d=1,99. Iš lentelės randame d_L=1,16, d_U=1,33. Kadangi 4-d_U=2,67, tai d_U<d<4-d_U, t.y. neturime pagrindo manyti, kad kad liekanos koreliuoja.

Vasarą prisiminus… :)

gruodžio 5, 2009

Žinoma kurortinio miestelio keliolikos vasaros dienų vidutinė dienos temperatūra ir vietos restorane suvalgytų ledų porcijų skaičius. Rasime regresijos tiesės lygtį. Ištirsime, kiek ledų kilogramais tikėtina suvalgyti per dieną, kurios vidutinė temperatūra siekia 27,5^{\circ}C.

Duomenys pateikiami lentele:

Temperatūra 25 26 24 26 24 26 22 23 27 20 20 22
Ledai (kg) 116 120 115 119 115 118 111 113 121 108 109 110
Temperatūra 28 22 23 23 28 24 26 29 25 25 25 24
Ledai (kg) 122 113 113 114 123 116 119 125 118 119 117 116

Čia nepriklausomas kintamasis X – temperatūra, o priklausomas kintamasis Y – suvalgytų ledų kiekis. Randame:

\sum_{i=1}^{24}x_i=25+26+...+24=587, \sum_{i=1}^{24}y_i=116+120+...+116=2790, \sum_{i=1}^{24}x_iy_i=25\cdot116+26\cdot120+...+24\cdot116=68474, \sum_{i=1}^{24}x_i^2=25^2+26^2+...+24^2=14485. Skaičiuojame regresijos tiesės koeficientus:

\widehat{b}=\frac{\sum_{i=1}^{24}x_iy_i-\frac{(\sum_{i=1}^{24}x_i\sum_{i=1}^{24}y_i)}{24}}{\sum_{i=1}^{24}x_i^2-\frac{(\sum_{i=1}^{24}x_i)^2}{24}}=1,84,

\widehat{a}=\frac{\sum_{i=1}^{24}y_i}{24}-\widehat{b}\frac{\sum_{i=1}^{24}x_i}{24}=71,28

Tada regresijos tiesės lygtis bus tokia: \widehat{y}(x)=71,28+1,84x.

Tuomet prognozuojamas ledų kiekis bus \widehat{y}(27,5)=71,28+1,84\cdot27,5=121,88\;kg.

Dalinis koeficientas eta(su bangele)^2

gruodžio 5, 2009

Dalinis koeficientas \eta^2 leidžia palyginti visų faktorių įtaką gautiems rezultatams. Tačiau kartais mus domina ir kiekvieno faktoriaus įtaka, palyginus su atsitiktiniais “triukšmais” . Tuo atveju naudojamas dalinis \eta^2 (žymime \widetilde{\eta}^2). Koeficientas \widetilde{\eta}^2 lygina duomenų skirtumus, atsiradusius dėl faktoriaus įtakos, su skirtumais, kuriuos paaiškina atsitiktinė paklaida. Todėl koeficientas \widetilde{\eta}^2 yra sąlyginis. Koeficientą \widetilde{\eta}^2 skaičiuojame taip:

\widetilde{\eta}^2_A=\frac{SSFA}{SSFA+SSE}, \widetilde{\eta}^2_B=\frac{SSFB}{SSFB+SSE}, \widetilde{\eta}^2_{AB}=\frac{SSAB}{SSAB+SSE}.

Pastaba:

Kuo koeficientas didesnis, tuo faktoriaus įtaka rezultatams yra didesnė, jei lygintume su skirtumais, atsirandančiais dėl imties atsitiktinumo.

Pavyzdys:

Sakykime, kad tiriame gandų įtikimumą. Faktoriumi A laikysime lytį, o faktorių B – pareigas. Atlikę tyrimą ir apskaičiavę SSFA=75,111, SSFB=547,16, SSAB=41,05, SSE=74,66, apskaičiuosime koeficientą \widetilde{\eta}^2:

\widetilde{\eta}^2_A=\frac{75,11}{75,11+74,66}=0,5, \widetilde{\eta}^2_B=\frac{547,16}{547,16+74,66}=0,88, \widetilde{\eta}^2_{AB}=\frac{41,05}{41,05+74,66}=0,355.

Darome išvadą, kad gandų įtikimumui didelę įtaką daro pareigos, vidutinę – lytis, o pareigų ir lyties sąveika pasirodė esanti pakankamai silpna.

Uždavinys apie alų ;)

lapkričio 21, 2009

Penki nepriklausomi ekspertai balais vertino 3 rūšių alų. Ar visų rūšių alus vienodai geras? Laikome, kad \alpha=0,05

Ekspertas Alaus rūšis
A B C
Pirmasis 10 (1) 7 (3) 8 (2)
Antrasis 5 (4) 2 (1) 4 (5)
Trečiasis 6 (3) 9 (1) 6 (4)
Ketvirtasis 3 (5) 4 (4) 7 (3)
Penktasis 9 (2) 8 (2) 10 (1)

Apskaičiuojame

\widetilde{R}_1=6, \widetilde{R}_2=6, \widetilde{R}_3=7, \widetilde{R}_4=12, \widetilde{R}_5=5 \Rightarrow \frac{\sum_{j=1}^{5}\widetilde{R}_j}{5}=7,2

\widetilde{S}=(6-7,2)^2+(6-7,2)^2+(7-7,2)^2+(12-7,2)^2+(5-7,2)^2=31,84

Skaičiuojame W:

W=\frac{12\cdot 31,84}{3^2(5^3-5)}\approx 0,354

Kadangi W arti nulio, galima spręsti, kad alaus rūšys nėra vienodai geros.

P.S. Manau, kad šitas uždavinys tik įrodo, kad Optima Linija alus nėra tiek pat geras kaip Guinness Beer 😉

Uždavinys pritaikant Frydmano kriterijų

lapkričio 21, 2009

Tarkime, kad mažmeninės prekybos firma nori pasirinkti spausdintuvų tiekėją. Ši firma gavo iš 3 tiekėjų informaciją apie 12 spausdintuvų kainas (Lt), kurios pateiktos lentelėje. Ar tiekėjų siūlomos spausdintuvų kainos skiriasi (\alpha=0,05)?

Spasdintuvas I tiekėjas II tiekėjas III tiekėjas
1 660 (2) 673 (1) 658 (3)
2 790 (1) 799 (2) 785 (3)
3 590 (2) 580 (3) 599 (1)
4 950 (2) 945 (3) 960 (1)
5 1290 (2) 1280 (3) 1295 (1)
6 1550 (1) 1500 (2) 1499 (3)
7 1980 (1) 1950 (3) 1970 (2)
8 2300 (2) 2295 (3) 2310 (1)
9 2500 (1) 2480 (3) 2490 (2)
10 2190 (3) 2199 (2) 2210 (1)
11 5590 (1) 5500 (3) 5550 (2)
12 6000 (2) 6100 (1) 6090 (3)

Matome, kad n=12, k=3. Randame R_1=20, R_2=29, R_3=21. Skaičiuojame

S=\frac{12}{nk(k+1)}\sum_{j=1}^{k}R_j^2-3n(k+1)=

=\frac{12}{12\cdot 3\cdot 4}(20^2+29^2+21^2)-3\cdot 12\cdot 4=3,83

\chi_{0,05}^2(2)=5,991

Kadangi 3,83<5,991, tai tiekėjų kainos skiriasi.

Tjuko HDS kriterijus

lapkričio 21, 2009

Ganėtinai statistiškai reikšmingo skirtumo (angl. HSD – Honestly Significant Difference) kriterijus grindžiamas vadinamąja stjudentizuoto atstumo Q statistika, kurios kvantiliams sudaromos specialios lentelės. Tarkime, kad visų imčių didumai vienodi: n_1=...=n_k=n. Norėdami palyginti i-tosios ir j-tosios imčių vidurkius, apskaičiuojame

Q(i,j)=\frac{\bar{x}_i-\bar{x}_j}{\sqrt{\frac{MSW}{n}}},

kur MSW=\frac{(n_1-1)S_1^2+...+(n_k-1)S_k^2}{n_1+...+n_k-k}

Vidurkiai \bar{x}_i ir \bar{x}_j statistiškai reikšmingai skiriasi, jeigu

\left | Q(i,j) \right |>Q_{\alpha}(nk-k, k);

čia \alpha yra pasirinktas reikšmingumo lygmuo (jis sutampa su eksperimento reikšmingumo lygmeniu), o Q_{\alpha}(nk-k, k) –  Q statistikos \alpha lygmens kritinė reikšmė.

Neretai Tjuko kriterijus užrašomas analogiškai Bonferonio kriterijui.

Vidurkiai \bar{x}_i ir \bar{x}_j statistiškai reikšmingai skiriasi, jei

\left | \bar{x}_i-\bar{x}_j \right |>TSD;

čia TSD=\sqrt{\frac{MSW}{n}}Q_{\alpha}(nk-k,k).

Pavyzdys.

Trims klausytojų grupėms tas pats pranešėjas skaitė tą pačią paskaitą. Kiekvienai grupei jis buvo pristatytas skirtingai: pirmajai grupei – doktorantas, antrajai grupei – docentas, trečiajai grupei – Harvardo profesorius. Po paskaitos kiekvienas klausytojas įvertino paskaitą balu nuo 0 iki 100. Patikrinti, ar pranešėjo pristatymas turėjo įtakos paskaitos įvertinimui.

1 grupė 60 65 63 70 76 68 59 64 62 69 75 67
2 grupė 72 76 74 75 70 83 71 75 73 74 69 82
3 grupė 86 76 83 77 72 86 85 75 82 76 71 85

Lentelėje viršuje pateikti vertinimai.  Klausytojų vertinimų ANOVA rezultatai:

Kvadratų suma Laisvės  laipsniai Dispersijos  įverčiai Statistika
Grupių 1032 2 516 19,59
Vidinė 869 33 26,33
Visa 1901 35

Tarkime, kad \alpha=0,05. Iš ANOVA lentelės nustatome, kad yra statistiškai reikšmingi besiskiriančių vidurkių. Iš tikrųjų: F=19,59>3,2=F_{0,05}(2,33). Be to, n=12, k=3, MSW=26,33.

Apskaičiuojame \bar{x}_1=79,5, \bar{x}_2=74,5, \bar{x}_3=66,5, Q(2,3)=5,40, Q(1,3)=8,77, Q(1,2)=3,37. Randame Q_{0,05}(33,\:3) . Dabar jau nebesunku pastebėti, kad trečiosios grupės vertinimai statistiškai reikšmingai skiriasi nuo kitų dviejų grupių, o pirmosios ir antrosios grupės vidurkis statistiškai nereikšmingas. Galime daryti išvadą, kad pristatymas turėjo reikšmės vertinimams.

Pastaba.

Tjuko kriterijus pakeičia Bonferonio kriterijų, kai imčių yra daug. Šis kriterijus labiausiai linkęs priimti nulinę hipotezę.

Kvadratų suma Laisvės laipsniai Dispersijos įverčiai Statistika
Grupių 1032 2 516 19,59
Vidinė 869 33 26,33
Visa 1901 35

Bonferonio kriterijus

lapkričio 20, 2009

Jeigu 0\leq{\alpha}<1, C>0, tai 1-1(1-\alpha)^2\leq{C\alpha}. Todėl eksperimento reikšmingumo lygmuo \alpha_E (t.y. tikimybė lyginant visas įmanomas poras nors kartą neteisingai nustatyti statistiškai reikšmingą dvejų imčių vidurkių skirtumą) neviršija \frac{k(k-1)\alpha}{2}; čia k yra imčių skaičius , o \alpha – reikšmingumo lygmuo lyginant vieną porą imčių. Bonferonio kriterijus bus toks:

pasirenkamas eksperimento reikšmingumo lygmuo \alpha_E ir visos  imčių poros lyginamos taikant Stjudento kriterijų, esant reikšmingumo lygmeniui \alpha=\frac{\alpha_E}{C} ; čia C=\frac{k(k-1)}{2}. Dar galima apskaičiuoti šia formule:

BSD_{ij}=t_{\frac{\alpha}{2}}(N-k)\sqrt{MSW(\frac{1}{n_{i}}+\frac{1}{n_j})}

čia N=n_1+...+n_k, k – bendras imčių skaičius, \alpha=\frac{2\alpha_E}{k(k-1)} ,\alpha_E -Stjudento skirstinio su N-k laisvės laipnsių \frac{\alpha}{2} lygmens kritinė reikšmė, MSW – imties dispersijos įvertis.

Vidurkiai \bar{x_i} ir \bar{x_j} statistiškai reikšmingai skiriasi, jei \left | \bar{x_i}-\bar{x_j} \right |>BSD_{ij}

Jei visų imčių didumai vienodi, tai BSD_{ij}=BSD, t.y. visiems lyginimams naudojame tą patį dydį.

Pavyzdys:

Sakykim, turime \bar{x_1}=736, \bar{x_2}=669,9, \bar{x_3}=754,7.

Be to, N=30, MSW=393,22, k=3.

Tada pasirenkame \alpha_E=0,05.

Tuomet \alpha=\frac{0,05\cdot{2}\cdot{2}}{3}=0,0166,

BSD=t_{0,0166}(27)\sqrt{\frac{2\{sdot{393,22}}{10}}=19,5.

Tada \left | \bar{x_1}-\bar{x_2} \right |=66,1>BSD, \left | \bar{x_2}-\bar{x_3} \right |=83>BSD,

\left | \bar{x_1}-\bar{x_3} \right |=17,7<BSD.

Taigi, antrasis vidurkis statistiškai reikšmingai skiriasi nuo kitų dviejų vidurkių, bet pirmojo ir trečiojo vidurkiai statistiškai nereikšmingai skiriasi.

Pastaba.

Jei turime daug imčių, tai Bonferonio kriterijus tampa nebeefektyvus, nes labai mažėja \alpha. Beveik niekada nefiksuojamas statistiškai reikšmingas vidurkių skirtumas, nors tikrieji populiacijų vidurkiai ir skiriasi (t.y. išauga antrosios rūšies klaidos tikimybė). Todėl didelėms imtims šio kriterijaus netaikysime.

Vienfaktorinės disperinės analizės taikymas

lapkričio 20, 2009

ANOVA taikymo schema:

1. Duomenys. Turime k imčių (x_{11}, ..., x_{1n_1}), ..., (x_{k1}, ..., k_{kn_k}), gautų matuojant nepriklausomus normaliuosius atsitiktinius dydžius X_{1}\sim N(\mu _{1},\sigma ^2), ..., X_{k}\sim N(\mu _{k},\sigma ^2) pagal intervalų skalę. Nei vidurkių \mu_1, ..., \mu_k , nei dispersijos \sigma^2 nežinome.

2. Statistinė hipotezė.

\left\{\begin{matrix}H_0: \mu_1=...=\mu_k\\ H_1: bent\:du\:vidurkiai\: skiriasi\end{matrix}\right.

3. Kriterijaus statistika. Skaičiuojame:

F=\frac{MSB}{MSW},

kai MSB=\frac{n_1(\overline{X}_1-\overline{X})^2+...+n_k(\overline{X}_k-\overline{X})^2}{k-1}

ir    MSW=\frac{(n_1-1)S_1^2+...+(n_k-1)S_k^2}{n_1+...+n_k-k}

4. Sprendimo priėmimo taisyklė. Reikšmingumo lygmuo lygus \alpha. Hipotezė H_0 atmetama (bent du vidurkiai statistiškai reikšmingai skiriasi), jei F>F_{\alpha}(k-1,N-k) ; čia N=n_1+...+n_k, F_{\alpha}(k-1,N-k) yra Fišerio skirstinio su k-1 ir N-k laisvės laipsnių \alpha lygmens kritinė reikšmė. Hipotezę H_0 priimame, jei F\leq{F_{\alpha}(k-1,N-k)}

Pavyzdys.

Gamykloje yra keturių rūšių staklės. Žinoma, kiek mėnesių praėjo nuo kiekvienų staklių darbo pradžios iki pirmojo gedimo. Ar duomenys leidžia teigti, kad ne visų rūšių staklės genda vienodai greitai?

(\alpha=0,05).

Staklių rūšis A B C D
Laikas 36 35 35 36,5
iki 30,2 36 30,6 30,3
pirmojo 33,3 34,5 33,7 30
gedimo 35,1 33,9 37,1 33,6
(mėn) 33,9 36,5
n_i 5 4 4 5 N=18
T_i 167,5 139,4 136,4 166,9 T=610,2
\bar{x_i} 33,5 34,85 34,1 33,28 \bar{x}=33,85
\sum {x_i^2} 5631,35 4860,46 4673,46 5611,55 \sum{x_{ij}^2=}20776,82

Viršuje pateikti duomenys ir apskaičiuoti reikalingi dydžiai. Sudarome hipotezę:

\left\{\begin{matrix}H_0:\:vidutiniai\:laikai\:nesiskiria\\ H_1:\:vidutiniai\:laikai\:skiriasi\end{matrix}\right..

Dabar randame:

\frac{T_1^2}{5}+\frac{T_2^2}{4}+\frac{T_3^2}{4}+\frac{T_4^2}{5}=20691,7;

SSB=\sum{i=1}{k}{\frac{T_i^2}{n_i}}-\frac{T^2}{N}=20691,7-20685,78=5,92

SSW=20776,82-20691,7=85,12

SST=20776,82-20685,78=91,04, k-1=4-1=3, N-k=18-4=14

MSB=\frac{SSB}{k-1}=1,97,       MSW=\frac{SSW}{N-k}=6,08

Tada

F=\frac{MSB}{MSW}=0,32

Kadangi F=0,32<3,34=F_{0,05}(3,14), tai atmesti nulinės hipotezės negalima. Turimi duomenys leidžia teigti, kad visų rūšių staklių vidutiniai laikai iki pirmojo sugedimo statistiškai reikšmingai nesiskiria.

Pastaba.

Hipotezės priėmimą galime taikyti ir p -reikšmei.

Sakykime, kad turime tą pačią hipotezę, tada priėmimo taisyklę formuluotumėme taip: sakykime, kad reikšmingumo lygmuo yra lygus \alpha.Tada

H_0 atmetama, jei p<\alpha

H_0 priimama, jei p\geq{\alpha}

Struktūrinis ANOVA modelis

lapkričio 20, 2009

Tarkime, turime k nepriklausomų populiacijų. Priklausomas kintamasis, matuojamas i-tojoje populiacijoje, vadinamas populiacijos kintamuoju. Populiacijų kintamuosius pažymėkime X_1, X_2, ... , X_k. Iš kiekvienos populiacijos parenkama paprastoji atsitiktinė imtis: X_{i1}, X_{i2}, ... ,X_{in_{i}}; čia i=1, 2, ..., k – populiacijos numeris, o n_ii-tosios imties didumas.

Struktūrinis ANOVA modelis i – osios imties j – ajam stebėjimui X_{ij} užrašomas taip:

X_{ij}=\mu_{i}+e_{ij}=\mu +\tau_{i}+e_{ij}       (1);

čia \mu _{i}=EX_{i} yra i -osios populiacijos kintamojo vidurkis; e_{ij}– atsitiktinė paklaida, \mu– bendras visų populiacijų vidurkis; \tau_{i}=\mu_{i}-\mu yra i -osios populiacijos vidurkio ir bendrojo vidurkio skirtumas.

Šis dydis vadinamas i -tosios populiacijos efektu. Modelis nusako, kokią potencialią reikšmę gali įgyti i -osios imties j -asis elementas, todėl (1) formulėje X_{ij} yra atsitiktinis dydis. Pastebėkime, kad \mu, \mu_i, \tau_i yra skaičiai, o e_{ij} -atsitiktinis dydis.

Pavyzdys.

Tarkime, lyginame suaugusių lietuvių, japonų ir pigmėjų ūgius. Nepriklausomas faktorius – tautybė, priklausomas – ūgis. Kintamasis X_1 žymi lietuvio ūgį,  X_2 – japono, X_3 – pigmėjo. Tuomet (1) modelyje \mu atitinka vidutinį visų trijų populiacijų žmonių ūgį; \mu_1 – lietuvio,  \mu_2 – japono, \mu_3 – pigmėjo ūgius; \tau_1 -vidutinio lietuvių ūgio ir bendrojo ūgių vidurkio skirtumą (kiek lietuvio ūgis didesnis už bendrąjį visų populiacijų ūgio vidurkį); e_{ij}-dydis, rodantis, kiek j-asis lietuvių imties respondentas skiriasi nuo vidutinio lietuvio. Paklaidos \tau_i ir e_{ij} gali įgyti ir neigiamas reikšmes.

ANOVA šiuo atveju padeda nustatyti, ar įvairių tautybių vidutiniai vyrų ūgiai skiriasi.

Pastaba.

Struktūrinis ANOVA modelis tik nusako duomens sandarą, t.y. kokios komponentės jį sudaro. Mes nežinome nei \mu, nei \mu_i tikrųjų reikšmių. Atsitiktinis dydis e_{ij} irgi priklauso nuo nežinomos dispersijos. Sąlygos, kurias turi tenkinti e_{ij}, yra reikalavimai, leidžiantys taikyti dispersinę analizę.

Tarkime, turime k nepriklausomų populiacijų. Priklausomas kintamasis, matuojamas i-tojoje populiacijoje, vadinamas populiacijos kintamuoju. Populiacijų kintamuosius pažymėkime X_1, X_2, ... , X_k. Iš kiekvienos populiacijos parenkama paprastoji atsitiktinė imtis: X_{i1}, X_{i2}, ... ,X_{in_{i}}; čia i=1, 2, ..., k – populiacijos numeris, o n_ii-tosios imties didumas.

Struktūrinis ANOVA modelis i – osios imties j – ajam stebėjimui X_{ij} užrašomas taip:

X_{ij}=\mu_{i}+e_{ij}=\mu +\tau_{i}+e_{ij}       (1);

čia \mu _{i}=EX_{i} yra i -osios populiacijos kintamojo vidurkis; e_{ij}– atsitiktinė paklaida, \mu– bendras visų populiacijų vidurkis; \tau_{i}=\mu_{i}-\mu yra i -osios populiacijos vidurkio ir bendrojo vidurkio skirtumas. Šis dydis vadinamas i -tosios populiacijos efektu. Modelis nusako, kokią potencialią reikšmę gali įgyti i -osios imties j -asis elementas , todėl (1) formulėje X_{ij} yra atsitiktinis dydis. Pastebėkime, kad \mu, \mu_i, \tau_i yra skaičiai, o e_{ij} -atsitiktinis dydis.