본문 바로가기
scribbles

이원확률효과모형(two-way random effect)과 나의 무지

by 고이난 2021. 2. 28.

...라고 제목을 적었지만 아직도 개념이 확 잡히지 않는다. 그렇지만 기록을 위해서 일단 적어둔다!

 

얼마 전, 박사논문의 통계 부분 챕터 작성하시는 것을 돕고 있는 한 박사과정생 분으로부터 질문을 받았다. 6개국, 10개년도 데이터로 통계를 돌리던 중 왜 plm 패키지 (R로 분석하시는 중) 를 사용하여 이원확률모형(two-way ramdom effect) 추정이 되지 않는지에 대한 질문이었다. 시계열 횡단면 분석 조교를 한 학기 하기는 했으나 정말 교수님과 학교에게 죄송할 정도로 날로 먹었던지라, 추가적인 공부가 필요했다. 아직도 공부를 하는 중이고, 아래는 내가 지금까지 알아낸 것이다.

 

일단 정말 날로 배웠다는 것이 티가 나는게, 나는 여태 고정효과(fixed effect) 모형과 확률효과 모형의 차이가 OLS를 사용하느냐 MLE를 사용하느냐로만 이해했다는 것이다. 확률효과 모형을 MLE로만 추정한다고 알고 있었으면 절대 알아낼 수 없는 문제였다. 우선 질문의 답은 모형에 포함하고자 하는 독립변수의 갯수(k=14)가 가지고 있는 데이터의 국가 수(n=6)나 연도 수(t=10)보다 많아서 그렇다. 그렇다면 이어지는 질문은 그러면 왜 안 되냐는 것이다.

 

plm 패키지에서 이원확률효과모형은 아래 명령어로 추정할 수 있다.

 

plm(y ~ x, data, effect="twoway", model="random")

 

 

여기서 data는 이미 plm 패키지에 존재하는 pdata.frame() 명령어를 통해 R 세션에게 패널 데이터임을 선언한 데이터여야 한다. y ~ x 는 간단하게 표현한 종속변수와 독립변수 간 관계이고, effect에 들어가는 명령어는 two-way(이원화), model에 들어가는 명령어는 확률효과(random effect)를 모형 추정 시 사용해달라는 것이다.

 

plm 패키지는 확률효과모형을 추정할 때 Swamy-Arora 방식을 사용한다. 이 방식은 모형에서 독립변수 부분을 제외한 잔차(residual)를 다음과 같이 단위 고정효과(unit fixed effects), 시간 고정효과(time fixed effects), 그리고 순수한 잔차(residual)의 세 가지로 나눌 때 앞의 두 가지 고정효과를 이원분산분석(two-way ANOVA)의 관점에서 다루기 때문인 것 같다.

 

$$u_{it} = v_i + \lambda_t + \varepsilon_{it}$$

 

여기서 $v_i$는 단위 고정 효과, $\lambda_t$는 시간 고정 효과, 그리고 $\varepsilon_{it}$ 는 앞의 두 가지 고정효과와 모형에서 포착할 수 없는 순수한 잔차를 말한다. ANOVA 추정에서는 통계적 검정 시 제곱합(sum of squares)과 F-분포를 이용하기 때문에, 위에서 나눈 $v_i$와 $\lambda_t$들의 통계적 검정 시에도 이들의 제곱합을 구해주는 것이 필요하다. 그러나 시계열-횡단면 자료에서의 ANOVA 추정은 많은 요인들 (예컨대 국가가 6개국이라면 국가 6개 요인, 시간이 10개년도라면 10개 요인) 이 있기 때문에 자유도에 많은 제약이 걸린다. 

 

바로 이 자유도 때문에 plm에서 사용하는 Swamy-Arora 방식의 이원확률효과모형 추정이 불가능한 것이다. 위에 링크를 타고 가면 "Swamy-Arora Method"라고 되어 있는 섹션 아래에 $v_i$와 $\lambda_t$의 제곱합의 기대값을 보면 (T-K-1)와 (N-K-1) 수식이 나와있는 부분을 볼 수 있다. 바로 이 두 가지 수식이 자유도이다. 여기서 T는 시간 수를 말하며, N은 단위 수를 말한다. 동료 박사과정생이 이용하는 데이터에 따르면 T는 10(10개년도), N은 6(6개국)인데 비해 K는 14개(모형에 포함된 독립변수의 개수 14개)이기 때문에, 0이나 음수가 되면 안 되는 자유도가 음수가 되어버리니 오류 메시지가 뜨는 것이다. 

 

이 부분. 첫 번째 수식은 순수한 잔차의 제곱합의 기댓값이며, 아래 두 개가 시간 고정효과와 단위 고정효과의 제곱합의 기댓값을 계산하는 수식이다. 잘 보면 아래 두 개 수식의 우변에 2번째 항에 자유도가 나타나있다. 

 

더 복잡한 내용을 하나도 이해하지 않고 이렇게 오류의 원인만 퉁쳐서 기록하는 것은 위험하지만, 앞으로 더 이 부분을 공부해야겠다는 생각을 이렇게로라도 기록해보기 위해 우선 적는다. 동료 박사과정생에게 답변을 준비하면서 정말 많은 반성을 했는데, 그 중에 한 가지는 "데이터 관측값의 수가 부족해서"라는 말을 절대로 함부로 해서는 안 되겠다는 생각을 한 것이다. 관측값의 부족은 반드시 모형이 필요로 하는 조건이나 제약에 어떻게 위배되는지와 관련지어서 생각해야지, 단순히 관측값이 모자라다는 말로만 얼버무리면 안 된다는 것이다. 예컨대 원래 내가 배운대로 확률효과 모형이 단순히 MLE로만 추정하는 것이라면 관측값 부족은 그 자체로는 문제가 없다. 

 

정말.. 갈 수록 공부할 것은 태산이고 무기력함을 느끼지만 부족한 나에게 물어봐준 박사과정생에게 감사하며 오늘 하루는 마저 이 부분을 집요하게 파고들어가봐야 할 것 같다. 오랜만에 선형대수 노트장을 펴고 하나하나 그려가며 시간을 보내야겠다.

 

ps. 자유도에 대한 나의 막막함과 울분을 따로 포스팅해보아야겠다. 

댓글