구조방정식,논문에 쓰기 전 반드시 확인해야 할가정 조건, 알고 계셨나요?
솔직히 말하면,구조방정식(SEM)은논문에서 한 번쯤써보고 싶은 분석 방법입니다.변수 간의 복잡한 관계를한눈에 보여줄 수 있고,잠재변수까지 다룰 수 있으니까요.
그런데 막상 쓰려고 하면"이거 그냥 돌리면 되는 거 아니야?"라고 생각하기 쉽죠.아닙니다.구조방정식은 조건을제대로 갖추지 않으면결과가 나와도 믿기 어렵습니다.심사위원들이 반드시 짚고넘어가는 부분이기도 하고요.그래서 오늘은 분석 돌리기 전에꼭 체크해야 할 가정 조건들을하나씩 정리해드릴게요.
구조방정식은표본이 작으면결과가 많이 흔들립니다.일반적으로최소 200개 이상은확보해야 하고,모형이 복잡할수록 더 필요해요.현실적인 기준으로는관측변수 1개당표본 10~20개 정도를생각하시면 됩니다.관측변수가 15개라면최소 150~300개는있어야 한다는 뜻이에요.표본이 부족한 상태에서억지로 돌리면 적합도 지수가이상하게 나오거나,추정값 자체가수렴을 못 하는 경우도 생깁니다.데이터 수집 단계에서부터이 부분을 꼭 염두에 두세요.
구조방정식에서가장 많이 쓰는 추정 방법인최대우도법(ML)은데이터가 정규분포를따른다고 전제합니다.먼저 각 변수의왜도(Skewness)는 ±2 이내,첨도(Kurtosis)는 ±7 이내인지확인하세요.이 기준을 넘어가면정규성 위반으로 봅니다.더 엄밀하게는Mardia의 다변량첨도 계수도 봐야 하는데,표준화 값이 5 이하면양호하다고 봅니다.만약 정규성이 심하게 위반된다면?Satorra-Bentler Robust ML이나WLS 방법으로 바꾸면 됩니다.AMOS나 lavaan 모두 지원하니까겁내지 않아도 돼요.
세 번째, 리커트 척도를 어떻게 처리할 건가요?
"설문지 5점 척도로만들었는데 괜찮겠지?"하시는 분들 많죠.관행적으로는 연속형 데이터로취급해서 ML로 돌리는 경우가 많고,대부분의 심사에서도 수용됩니다.다만 3점 이하 척도거나응답이 심하게한쪽으로 쏠린 경우라면이야기가 달라집니다.이럴 땐 WLSMV 추정법을쓰는 게 더 적절해요.특히 범주형 변수가포함된 모형이라면반드시 고려해야 합니다.
네 번째, 변수끼리 너무 비슷하진 않나요?
변수 간 상관이 .85~.90 이상이면다중공선성을 의심해봐야 합니다.구조방정식에서 잠재변수 간 상관이.95 이상으로 나오면사실상 같은 개념을 두 번 측정한 것과 비슷해서,모형이 수렴하지 않거나Heywood case(오차분산이 음수로 나오는 등이상한 결과)가 발생할 수 있어요.분석 전에 상관관계 행렬을먼저 훑어보는 습관을 들이세요.이상하게 높은 상관이 보인다면이론적으로 변수를다시 검토하는 게 맞습니다.
다섯 번째, 결측값은 어떻게 처리하셨나요?
결측값 처리는생각보다 결과에 큰 영향을 줍니다.그냥 결측 있는케이스 삭제(Listwise)하는분들이 많은데,결측 비율이 5%를 넘는다면표본 손실이 생각보다 클 수 있어요.가장 권장되는 방법은 두 가지입니다.
FIML(완전 정보 최대우도법):AMOS, lavaan에서 기본 지원.결측 있는 케이스도 분석에 포함시켜줌다중 대체법(Multiple Imputation):결측을 여러 번 추정해서평균 내는 방식.조금 더 번거롭지만 정확함
결측이 5% 이하라면위 두 방법 중 하나를 꼭 쓰세요.
여섯 번째, 모형이 '풀릴 수 있는' 상태인가요?
이게 좀 낯선 개념일 수 있는데,모형 식별(Model Identification)이야기입니다.쉽게 말하면, 추정해야 할모수의 수가 데이터에서얻을 수 있는 정보의 수보다많으면 안 된다는 거예요.수학적으로 풀 수 없는 방정식처럼,모형이 식별이 안 되면분석 자체가 불가능합니다.실용적인 기준은 이렇습니다.잠재변수 하나에 관측변수 최소 3개 → 과식별(분석 가능)관측변수 2개 → 정확식별(가능하지만 적합도 검증 불가)관측변수 1개 → 미식별(분석 불가)모형의 자유도(df)가 0 이상이어야적합도 검증이 의미 있습니다.이 부분은 모형 그리기 단계에서미리 확인해두세요.
일곱 번째, 적합도 기준을 알고 계신가요?
분석 후 결과 해석을 위해적합도 지수 기준은미리 알아두는 게 좋습니다.
한 가지만 보고하는 건심사에서 지적받을 수 있어요.보통 CFI + RMSEA + SRMR 조합으로보고하면 무난합니다.
여덟 번째, 오차 간 상관을 함부로 허용하고 있진 않나요?
수정지수(Modification Index)를보다 보면 오차 간 상관을 허용했을 때적합도가 확 올라가는 경우가 있습니다.그런데 이걸 이론적 근거 없이그냥 허용해버리면적합도는 좋아지지만모형의 의미 자체가 흔들립니다.오차 간 상관은같은 문항을 유사하게 표현했거나,동일 방법 편의가 있는 경우처럼이론적으로 설명 가능할 때만허용해야 해요.숫자 좋게 만들려고무분별하게 쓰는 건정직한 연구가 아닙니다.
-표본 수 충분한가?(관측변수 × 10~20 이상)-왜도·첨도 확인했는가?-척도 수준에 맞는추정법을 선택했는가?-변수 간 상관이 과도하게높은 곳은 없는가?-결측값 처리 방법은 정했는가?-잠재변수당 관측변수 3개 이상인가?-적합도 기준을 미리 파악했는가?-오차 간 상관을이론 없이 허용하진 않는가?
구조방정식은 조건만제대로 갖추면정말 강력한 분석 도구예요.반대로 조건을 무시하고 쓰면결과를 믿기 어렵고,심사 과정에서 큰 코 다칩니다.오늘 정리해드린 내용이논문 쓰면서 막히는 부분을해결하는 데 조금이라도 도움이 되셨으면 좋겠습니다.구조방정식,논문에 쓰기 전 반드시확인해야 할 가정 조건,꼼꼼히 점검하고자신 있게 분석 시작하세요!구조방정식,논문에 쓰기 전반드시 확인해야 할 가정 조건을미리 알고 준비하는 것만으로도논문의 완성도가 달라집니다.여러분의 연구를 응원합니다!
#구조방정식#SEM#논문통계#통계분석#구조방정식모형#논문작성#대학원생#박사논문#석사논문#통계검정#적합도지수#잠재변수#측정모형#AMOS#lavaan#다변량정규성#표본크기#모형식별#결측값처리#FIML#논문방법론#양적연구#사회과학통계#경영학논문#교육학논문#심리학통계#연구방법론#통계컨설팅#SKY논문통계#논문도움