Archive for 2009 gruodžio

Uždavinys apie vairavimą ir alų

gruodžio 5, 2009

Matuojamas laikas, reikalingas specialiai vairavimo užduočiai atlikti. Tirtos keturios pradedančiųjų vairuotojų grupės. Pirmos grupės vairuotojai prieš užduotį nervus ramino vienu bokalu alaus, antrosios – dviem, trečiosios – trimis, ketvirtosios – keturis bokalais. Tikriname, ar  vidutinis užduoties atlikimo laikas tiesiškai didėja didėjant išgertų bokalų skaičiui. Reikšmingumo lygmuo \alpha=0,01.

Grupė 1 2 3 4
Laikas 7,4 9,2 11 12
8,8 10 12,1 10,9
6,3 8,4 11,3 13,8
8,4 10,1 10,7 13,1
9,4 11,1 11,4 11,8
8,3 10,2 10,2 12,3
8 10,8 9,8 12,5
9,1 9,9 10,9 12,4

Tikriname hipotezė apie tiesinį vidurkių trendą:

\left\{\begin{matrix}H_0: vidurkiai\:nesudaro\:tiesinio\:trendo\\ H_1: vidurkiai\:sudaro\:tiesini\:trenda\end{matrix}\right.

Apskaičiuojame \overline{x}_1=8,21, \overline{x}_2=9,96, \overline{x}_3=10,92, \overline{x}_4=12,35, MSW=0,745. Iš kontrastų koeficientų trendams lentelės pasirenkame koeficientus: C_1=-3, C_2=-1, C_3=1, C_4=3. Statistikos reikšmė

F=\frac{(-3\cdot8,21-9,96+10,92+3\cdot12,35)^2}{0,745(9+1+1+9)/8}=96,7

Kadangi 96,7>7,63=F_{0,01}(1,28), tai H_0 atmetame. Gavome statistiškai reikšmingą patvirtinimą, kad bokalų skaičiui didėjant reikiamo laiko užduočiai atlikti vidurkiai tiesiškai didėja.

P.S. Atleiskit, kad nėra dviejų nosinių raidžių hipotezės formulavime, LaTex’as nerašo 🙂

Grupė 1 2 3 4
Laikas 7,4 9,2 11 12
8,8 10 12,1 10,9
6,3 8,4 11,3 13,8
8,4 10,1 10,7 13,1
9,4 11,1 11,4 11,8
8,3 10,2 10,2 12,3
8 10,8 9,8 12,5
9,1 9,9 10,9 12,4
Reklama

Durbino – Vatsono kriterijus

gruodžio 5, 2009

Kartais prognozės liekamosios paklaidos būna priklausomos, pvz., akcijų kursų kitimas nėra visiškai atsitiktinis. Regresijos modeliai su koreliuojančiomis liekanomis nagrinėjami laiko eilučių teorijoje. Durbino – Vatsono kriterijus plačiai taikomas šioje teorijoje, kai norima nusakyti, ar yra vadinamas autoregresijos modelis. Tuo tarpu mus domina, ar autoregresijos nėra. Žingsniai, kaip naudoti šį kriterijų:

1.  Prielaida. Regresijos modelio paklaidas sieja ryšys

e_i=\rho e_{i-1}+z_i;

čia z_i\sim N(0, \sigma ^2) ir z_1, z_2, ... yra nepriklausomi atsitiktiniai dydžiai. Paklaidos e_i nekoreliuoja, jeigu \rho=o.

2.  Statistinė hipotezė. \left\{\begin{matrix}H_0: \rho =0\\ H_1: \rho \neq 0\end{matrix}\right.

3.  Kriterijaus statistika. d=\frac{\sum_{i=2}^{n}(\widehat{e}_i-\widehat{e}_{i-1})^2}{\sum_{i=1}^{n}\widehat{e}_i^2}.

4. Sprendinio priėmimo taisyklė. Tegu reikšmingumo lygmuo 0,05. Iš lentelės randame atitinkamas d_l ir d_U reikšmes. Hipotezė H_0 atmetama (taigi autokorekcija yra), jei d<d_L arba d>4-d_L. Hipotezė H_0 neatmetama (liekanų autokotekcija statistiškai nereikšminga), jei d_U<d<4-d_U. Jokių statistinių statistinių išvadų daryti negalima, kai d_L\leq d\leq d_U arba 4-d_U\leq d\leq 4-d_L.

Pastaba.

Durbino – Vatsono statistika d kinta nuo 0 iki 4. Kuo d arčiau 2, tuo mažiau tikėtina, kad autokorekcija yra.

Pavyzdys.

Paskaičiuokime uždavinio apie ledus( https://rucike08.wordpress.com/2009/12/05/vasara-prisiminus/ ) Durbino – Vatsono kriterijų. Jis bus d=1,99. Iš lentelės randame d_L=1,16, d_U=1,33. Kadangi 4-d_U=2,67, tai d_U<d<4-d_U, t.y. neturime pagrindo manyti, kad kad liekanos koreliuoja.

Vasarą prisiminus… :)

gruodžio 5, 2009

Žinoma kurortinio miestelio keliolikos vasaros dienų vidutinė dienos temperatūra ir vietos restorane suvalgytų ledų porcijų skaičius. Rasime regresijos tiesės lygtį. Ištirsime, kiek ledų kilogramais tikėtina suvalgyti per dieną, kurios vidutinė temperatūra siekia 27,5^{\circ}C.

Duomenys pateikiami lentele:

Temperatūra 25 26 24 26 24 26 22 23 27 20 20 22
Ledai (kg) 116 120 115 119 115 118 111 113 121 108 109 110
Temperatūra 28 22 23 23 28 24 26 29 25 25 25 24
Ledai (kg) 122 113 113 114 123 116 119 125 118 119 117 116

Čia nepriklausomas kintamasis X – temperatūra, o priklausomas kintamasis Y – suvalgytų ledų kiekis. Randame:

\sum_{i=1}^{24}x_i=25+26+...+24=587, \sum_{i=1}^{24}y_i=116+120+...+116=2790, \sum_{i=1}^{24}x_iy_i=25\cdot116+26\cdot120+...+24\cdot116=68474, \sum_{i=1}^{24}x_i^2=25^2+26^2+...+24^2=14485. Skaičiuojame regresijos tiesės koeficientus:

\widehat{b}=\frac{\sum_{i=1}^{24}x_iy_i-\frac{(\sum_{i=1}^{24}x_i\sum_{i=1}^{24}y_i)}{24}}{\sum_{i=1}^{24}x_i^2-\frac{(\sum_{i=1}^{24}x_i)^2}{24}}=1,84,

\widehat{a}=\frac{\sum_{i=1}^{24}y_i}{24}-\widehat{b}\frac{\sum_{i=1}^{24}x_i}{24}=71,28

Tada regresijos tiesės lygtis bus tokia: \widehat{y}(x)=71,28+1,84x.

Tuomet prognozuojamas ledų kiekis bus \widehat{y}(27,5)=71,28+1,84\cdot27,5=121,88\;kg.

Dalinis koeficientas eta(su bangele)^2

gruodžio 5, 2009

Dalinis koeficientas \eta^2 leidžia palyginti visų faktorių įtaką gautiems rezultatams. Tačiau kartais mus domina ir kiekvieno faktoriaus įtaka, palyginus su atsitiktiniais “triukšmais“ . Tuo atveju naudojamas dalinis \eta^2 (žymime \widetilde{\eta}^2). Koeficientas \widetilde{\eta}^2 lygina duomenų skirtumus, atsiradusius dėl faktoriaus įtakos, su skirtumais, kuriuos paaiškina atsitiktinė paklaida. Todėl koeficientas \widetilde{\eta}^2 yra sąlyginis. Koeficientą \widetilde{\eta}^2 skaičiuojame taip:

\widetilde{\eta}^2_A=\frac{SSFA}{SSFA+SSE}, \widetilde{\eta}^2_B=\frac{SSFB}{SSFB+SSE}, \widetilde{\eta}^2_{AB}=\frac{SSAB}{SSAB+SSE}.

Pastaba:

Kuo koeficientas didesnis, tuo faktoriaus įtaka rezultatams yra didesnė, jei lygintume su skirtumais, atsirandančiais dėl imties atsitiktinumo.

Pavyzdys:

Sakykime, kad tiriame gandų įtikimumą. Faktoriumi A laikysime lytį, o faktorių B – pareigas. Atlikę tyrimą ir apskaičiavę SSFA=75,111, SSFB=547,16, SSAB=41,05, SSE=74,66, apskaičiuosime koeficientą \widetilde{\eta}^2:

\widetilde{\eta}^2_A=\frac{75,11}{75,11+74,66}=0,5, \widetilde{\eta}^2_B=\frac{547,16}{547,16+74,66}=0,88, \widetilde{\eta}^2_{AB}=\frac{41,05}{41,05+74,66}=0,355.

Darome išvadą, kad gandų įtikimumui didelę įtaką daro pareigos, vidutinę – lytis, o pareigų ir lyties sąveika pasirodė esanti pakankamai silpna.