Box-Cox Transformări - shen_960124 的 日志 - 网易 博客

Box-Cox (1964) transformările sunt folosite pentru a găsi transformări potențial neliniare ale unei variabile dependente. Transformarea Box-Cox are forma

Această familie de transformări a variabilei dependente pozitive este controlată de parametru . Transformările legate linear cu rădăcină pătrată, inversă, patratică, cubică și așa mai departe sunt cazuri speciale. Limita ca abordarea 0 este transformarea jurnalului. În general, pot fi potrivite transformările Box-Cox de forma următoare:

În mod implicit, . Parametrul poate fi folosit pentru a rescala astfel încât să fie strict pozitivă. În mod implicit, . Alternativ, poate fi , Unde este media geometrică a .

Transformarea BOXCOX în PROC TRANSREG poate fi utilizată pentru a efectua o transformare Box-Cox a variabilei dependente. Puteți specifica o listă a parametrilor de putere utilizând opțiunea LAMBDA = t. În mod implicit, LAMBDA = -3 TO 3 CU 0.25. Procedura alege parametrul de putere optimă utilizând un criteriu de probabilitate maximă (Draper and Smith 1981, pp. 225-226). Puteți specifica PARAMETER = opțiunea de transformare atunci când doriți să modificați valorile , de obicei pentru a evita negative. Pentru a împărți , specificați opțiunea t GEOMETRICMEAN.

Iată trei exemple de utilizare a opțiunii LAMBDA = t:

 model BoxCox (y / lambda = 0) = identitate (x1-x5); model BoxCox (y / lambda = -2 la 2 de 0,1) = identitate (x1-x5); model BoxCox (y) = identitate (x1-x5);

Iată primul exemplu:

 model BoxCox (y / lambda = 0) = identitate (x1-x5);

LAMBDA = 0 specifică o transformare Box-Cox cu un parametru de putere de 0. Deoarece o singură valoare de 0 a fost specificată pentru LAMBDA =, nu există nicio diferență între următoarele modele:

 model BoxCox (y / lambda = 0) = identitate (x1-x5); modelul log (y) = identitatea (x1-x5);

Iată cel de-al doilea exemplu:

 model BoxCox (y / lambda = -2 la 2 de 0,1) = identitate (x1-x5);

LAMBDA = specifică o listă a parametrilor de putere. PROC TRANSREG încearcă fiecare parametru de putere din listă și alege cea mai bună transformare. Se folosește o abordare cu probabilitate maximă (Draper și Smith 1981, pp. 225-226). Cu transformările Box-Cox, PROC TRANSREG găsește transformarea înainte de a începe iterațiile obișnuite. Rețineți că acest lucru este destul de diferit de abordarea obișnuită PROC TRANSREG de a găsi iterativ transformări optime cu cele mai mici pătrate obișnuite și alternante. Este analog cu SMOOTH și PBSPLINE, care găsesc de asemenea transformări înainte ca iterațiile să înceapă pe baza unui alt criteriu decât cele mai mici pătrate.

Iată cel de-al treilea exemplu:

 model BoxCox (y) = identitate (x1-x5);

Se utilizează lista LAMBDA = implicită = -3 TO 3 DE 0,25.

Procedura tipărește parametrul de putere optimă, un interval de încredere în parametrul de putere (pe baza opțiunii ALPHA = t), un parametru de putere "convenabil" (selectat din lista CLL = opțiune t) și probabilitatea de înregistrare pentru fiecare parametrul de putere a fost încercat (a se vedea exemplul 90.2).

Pentru a ilustra modul în care funcționează transformările Box-Cox, au fost generate date din model

Unde . Datele transformate pot fi potrivite cu un model liniar

Următoarele afirmații produc Figura 90.14 până la Figura 90.15:

 titlu "Exemplul Basic Box-Cox"; date x; x = 1 până la 8 cu 0,025; y = exp (x + normal (7)); de ieșire; Sfârşit; alerga; ods grafic; titlu2 "Opțiuni implicite"; proc transreg date = x test; model BoxCox (y) = identitate (x); alerga;


Figura 90.14 Exemplu Basic Box-Cox, ieșire implicită
Exemplul Basic Box-Cox, ieșire implicită

Figura 90.14 arată că PROC TRANSREG selectează corect transformarea jurnalului , cu un interval de încredere restrâns. complot arată asta este cel mai mare în vecinătatea transformării optime Box-Cox.

Restul ieșirii, care conține rezultatele ANOVA, este prezentat în Figura 90.15.


Figura 90.15 Exemplu Basic Box-Cox, ieșire implicită


Dependent Variable BoxCox (y)

Numărul de observații citite 281
Numărul de observații utilizate 281


Testele de ipoteză pentru procedura TRANSREG pentru BoxCox (y)

Tabel ANOVA univariat bazat pe gradele obișnuite de libertate
Sursă DF Suma patratelor Medie pătrată Valoare F Liberal p
Model 1 1145.884 1145.884 1053.66 >= <.0001
Eroare 279 303.421 1.088
Corectat total 280 1449.305
Statisticile de mai sus nu sunt ajustate pentru faptul că variabila dependentă a fost transformată și, în general, este liberală.

Rădăcină MSE 1.04285 R-pătrat 0.7906
Dependent Mediu 4.49653 Adj R-Sq 0.7899
Coeff Var 23.19225 Lambda 0.0000

Următorul exemplu folosește mai multe opțiuni. LAMBDA = t-option specifica parametrii de putere insuficient de la -2 la -0,5 si de la 0.5 la 2 doar pentru a obtine forma generala a functiei log-probabilitate in acea regiune. Între -0,5 și 0,5, sunt încercați mai mulți parametri de putere. Opțiunea CONVENIENT t este specificată astfel încât, dacă un parametru de putere cum ar fi sau se găsește în intervalul de încredere, se utilizează în locul parametrului de putere optim. PARAMETER = 2 este specificat pentru a adăuga 2 la fiecare înainte de efectuarea transformărilor. ALPHA = 0.00001 specifică un interval mare de încredere.

Aceste instrucțiuni următoare execută analiza Box-Cox și produc Figura 90.16 și Figura 90.17:

 titlu2 "Mai multe opțiuni demonstrate"; proc transreg date = x ss2 detalii parcele = (transformare (dependentă) scatter observedbypredicted); model BoxCox (y / lambda = -2 -1 -0,5 până la 0,5 de 0,05 1 2 parametru convenabil = 2 alfa = 0.00001) = identitate (x); alerga;


Figura 90.16 Exemplu Basic Box-Cox, mai multe opțiuni demonstrat
Exemplul Basic Box-Cox, mai multe opțiuni demonstrat

Rezultatele din Figura 90.16 și din Figura 90.17 arată că parametrul de putere optim este -0.1, dar 0 este în intervalul de încredere și, prin urmare, este aleasă o transformare log. Transformarea Box-Cox reală, graficul inițial de împrăștiere și observate prin graficul valorilor estimate sunt prezentate în Figura 90.17.


Figura 90.17 Exemplu Basic Box-Cox, mai multe opțiuni demonstrat


Dependent Variable BoxCox (y)

Numărul de observații citite 281
Numărul de observații utilizate 281

Detalii privind specificațiile pentru declarația de model
Tip DF Variabil Descriere Valoare
Dep 1 BoxCox (y) Lambda folosit 0
Lambda -0.1
Log Likelihood -1280.1
Conv. Lambda 0
Conv. Lambda LL -1287.7
CI Limit -1289.9
Alfa 0.00001
Parametru 2
Opțiuni Lambda convenabilă utilizată
Ind 1 Identitate (x) DF 1


Testele de ipoteză pentru procedura TRANSREG pentru BoxCox (y)

Tabel ANOVA univariat bazat pe gradele obișnuite de libertate
Sursă DF Suma patratelor Medie pătrată Valoare F Liberal p
Model 1 999.438 999.4381 1064.82 >= <.0001
Eroare 279 261.868 0.9386
Corectat total 280 1261.306
Statisticile de mai sus nu sunt ajustate pentru faptul că variabila dependentă a fost transformată și, în general, este liberală.

Rădăcină MSE 0.96881 R-pătrat 0.7924
Dependent Mediu 4.61429 Adj R-Sq 0.7916
Coeff Var 20.99591 Lambda 0.0000

Tabelul de regresie univariat, bazat pe gradele obișnuite de libertate
Variabil DF Coeficient Tipul II
Suma de
pătrate
Medie pătrată Valoare F Liberal p
Intercepta 1 0.42939328 8.746 8.746 9.32 >= 0.0025
Identitate (x) 1 0.92997620 999.438 999.438 1064.82 >= <.0001


Statisticile de mai sus nu sunt ajustate pentru faptul că variabila dependentă a fost transformată și, în general, este liberală.


trgd9etrgd9e, a continuattrgd9e, a continuat

Următorul exemplu arată cum se găsește o transformare Box-Cox fără o variabilă independentă. Aceasta urmărește să normalizeze histograma univariată. Acest exemplu generează 500 de observații aleatorii dintr-o distribuție lognormală. În plus, este creată o variabilă constantă z care este zero. Acest lucru se datorează faptului că PROC TRANSREG necesită specificarea unei variabile independente, chiar dacă este constantă. Două opțiuni sunt specificate în instrucțiunea PROC TRANSREG. MAXITER = 0 este specificat deoarece transformarea Box-Cox este efectuată înainte de a începe orice iterație. Nu sunt necesare iterații, deoarece nu este necesară nicio altă lucrare. Opțiunea a-opțiune NOZEROCONSTANT (care poate fi abreviată la NOZ) este specificată astfel încât PROC TRANSREG să nu tipărească avertismentele atunci când întâlnește variabila constantă independentă. Instrucțiunea MODEL cere o transformare Box-Cox a y și o transformare IDENTITY (care nu face nimic) a variabilei constante z. În cele din urmă, PROC UNIVARIATE este rulat pentru a arăta o histogramă a variabilei inițiale y și a transformării Box-Cox, Ty. Următoarele afirmații se potrivesc modelului Univariate Box-Cox și produc Figura 90.18:

 titlu "Univariate Box-Cox"; date x; apelul streaminit (17); z = 0; face i = 1 până la 500; y = rand ("lognormal"); de ieșire; Sfârşit; alerga; proc transreg max = 0 nozeroconstant; model BoxCox (y) = identitate (z); de ieșire; alerga; proc univariate noprint; histogramă y ty; alerga; ods off graphics;

Rezultatele PROC TRANSREG din Figura 90.18 arată că zero este ales pentru lambda, deci este aleasă o transformare log. Prima histogramă arată că datele originale sunt înclinate, dar o transformare a jurnalului face ca datele să apară mult mai aproape de normal.


Figura 90.18 Box-Cox fără variabilă independentă
Box-Cox fără variabilă independentă
trgd9gtrgd9g, a continuat


4.8
5
11
4
1
3
2
2
2
1
0

© 2018 Regele Caloriei.