Top

제  목    :    임상 연구 설계 및 분석의 첫 걸음 03: 단변량 분석
작성자 관리자
등록일 2016년 01월 04일 18시 06분 20초 조회 1,300
대한뇌졸중학회
들어가는 말
지금까지 우리는 연구를 막 시작하는 단계를 지나왔습니다.
1. 임상 연구를 시작하기 전에 research question을 만들고 이를 PICOT 형식으로 정리하는 과정
2. 연구의 대상을 선정하고 분석을 위한 데이터를 수집하는 과정

지금 단계에서, 여러분의 컴퓨터에는 다음 파일들이 쌓여 있게 될 것입니다.

  • PICOT 및 연구의 배경이 정리된 연구 계획서
  • Data collection을 위한 workbook
  • Data management 과정이 기록된 data log
  • Dataset
  • DB summery
  • Coding sheet


이 시점이 되면, 이제 드디어 '통계 분석'이라는 것을 할 수 있게 됩니다. 앞으로도 그렇지만, 저는 이 자리에서 여러분께 SPSS 사용법 / R script / STATA program 등을 말씀 드릴 계획은 없습니다. 간단한 단변량 분석은 엑셀로도 가능합니다. 그보다 저는 통계 분석의 순서 그리고 분석 과정에서 지켜야 하는 원칙을 이야기하려고 합니다. 극단적으로 말해서, 통계 분석 그 자체는 굳이 연구자가 하지 않아도 됩니다. 여러분의 병원에 통계 분석 지원 부서가 있으면 프로그래밍은 의뢰해도 됩니다. 다만, 통계학자는 의뢰받은 통계 분석을 대행해 줄 수는 있어도, 그 결과가 진실에 가까운지 아닌지는 알려 줄 수 없습니다. 연구와 분석이 '실체로서의 진실'을 갖고 있느냐는 여러분이 가진 research question / PICOT / inclusion 및 exclusion criteria을 통해 판단하는 것입니다. 그리고 여러 분이 내어 놓는 결과의 ‘진실성’은 ‘데이터의 충실함’을 통하여 평가받게 될 것입니다.
 
단변량 분석 (Univariate analysis)
단변량 분석은 여러 분이 갖고 있는 데이터셋의 모양을 보는 단계입니다. 다시 말해서, 멀리서 데이터셋을 보고 산이 어디에 있는지 골짜기는 어디에 있는지 전체적인 인상을 갖는 단계입니다. 흔히 이 단계를 생략하거나 신경을 많이 쓰지 않는 경우를 보는데, 이는 크게 잘못된 일입니다. 이 단계를 잘 진행해야, 분석을 진행하면서 다시 데이터셋을 꺼내 오고 결측값을 처리하고 잘못 입력된 값을 찾아 보는 실수를 줄일 수 있습니다. 그리고 단변량 분석 및 다음 시간에 논의할 이변량 분석(bivariate analysis)가 잘 되어 있으면, 통계 분석을 의뢰할 때에도 훨씬 정제된 데이터를 보낼 수 있어 상호 신뢰가 높아질 것입니다.

한 마디로 요약하자면, 단변량 분석은 데이터를 깨끗하게 다듬는 과정이라고 할 수 있습니다.
 
단변량 분석의 결과물
단변량 분석을 마친 후에는 아래와 같은 표를 갖게 됩니다.
다만, 위의 표는 논문에 삽입하기 위하여 다듬은 것이고, 연구 과정 중이라면, 아래와 같이 보다 다양한 정보를 담는 univariate table을 작성하는 것이 좋습니다.
연속형 변수의 단변량 분석
연속형 변수의 경우, 기본적으로는 histogram을 그려 보는 것이 좋습니다. 평균, 중앙값 등의 summary measure에 비하여 histogram을 통하여 보는 전체적인 분포가 더 많은 정보를 주는 편입니다.
연속형 변수의 분포를 요약할 때에는, 보통 다음 세 가지 형식을 이용합니다.

  • 평균 ± 표준편차
  • 중앙값 [interquartile range]
  • (최소값, 최대값)


Interquartile range는, 모든 값을 가장 작은 것부터 가장 큰 것까지 순서대로 나열하였을 때 (이 때 순위를 1등부터 100등까지 부여한 것을 백분위수, percentile이라고 부릅니다), 25등 및 75등에 해당하는 것입니다.
평균 ± 표준편차는 원칙적으로 normal distribution을 하는 경우에 적당합니다.
Normal distribution이 아닌 경우에는, 원칙적으로 median [interquartile range]를 사용합니다.
최소값 및 최대값은, 변수의 분포를 보는 목적보다는 out-of-range value, 즉 생물학적으로 가능하지 않을 것 같은 측정값을 확인하고 이를 수정하는 용도로 많이 사용됩니다.
 
순서형 변수의 취급
연속형 변수 가운데 ‘순서형 변수’를 다루는 것이 다소 까다롭습니다.

예를 들어, ‘연령’은 숫자로 구성된 변수이며 1세와 2세 그리고 10세와 11세 사이가 각각 1세 씩 떨어져 있습니다. 또한 1세와 2세 그리고 10세와 11세 사이의 의미 차이는 ‘1년’으로 동일합니다. 이러한 특성을 갖는 변수를 interval variable 이라고 부릅니다.

그에 비하여 ‘순서형 변수’, 즉 ordinal variable은 ‘숫자’로 구성되어 있음은 interval variable과 같으나 각 변수 값의 의미가 다릅니다. 예를 들어, modified Rankin Scale score는 0에서 6까지 7개의 연속적인 숫자로 구성되어 있습니다. 또한 mRS score는 0에서 6까지 그 의미가 연속적으로 누적됩니다. 0보다 1이 더 나쁘고, 5보다 6이 더 나쁩니다. 따라서 이를 ‘연속형 변수’로 취급하여 그 summary measure를 평균 ± 표준편차로 제시하는 논문도 간혹 있습니다. 그렇지만 엄밀히 말하여, mRS score의 0 - 1 사이의 의미 그리고 5 - 6 사이의 의미는 전혀 다릅니다. mRS score 5와 6 사이는 삶과 죽음의 경계선이지요. 그러므로, modified Rankin Scale score는 ‘순서형 변수’에 맞게 다루어져야 합니다.

그렇다면 NIHSS (National Institute of Health Stroke Scale) score는 interval variable일까요, 아니면 ordinal variable일까요? NIHSS score는 0부터 42까지, 43개의 숫자를 가질 수 있습니다. 그리고 각 구간 별로 갖는 의미가 조금씩 다릅니다. NIHSS score 1a (level of consciousness) 0 과 1이 갖는 의미와, NIHSS score 10 (dysarthria) 0과 1이 갖는 임상적 의미는 서로 다르겠지요. 그런 의미라면 NIHSS score는 순서형 변수로 다루어져야 하며, 따라서 summary measure로는 중앙값 [사분위수]를 제시해야 할 것입니다.

실제로 뇌졸중 임상연구센터 5세부에서 수집한 뇌경색 환자 약 2만 7천명의 초기 NIHSS score의 histogram은 아래와 같습니다.
 
그렇지만, 초급성기 혈관 재개통 치료를 받는 환자들을 대상으로 분석을 하면 NIHSS score는 normal distribution에 가까운 분포를 보입니다. 이 경우에는, NIHSS score를 순서형 변수로 취급할 수도 있고 경우에 따라서는 interval variable로 다루는 것도 가능합니다.
 
범주형 변수의 취급
범주형 변수(categorical variable) 및 명목 변수(nominal variable)은 각각의 범주에 해당하는 환자의 빈도 및 비율을 제시할 수 있습니다. 보통 frequency (percentage)의 형식으로 나타냅니다.
 
event 변수의 단변량 분석
추적 관찰 기간 동안에 발생하는 사건에 대한 정보를 갖고 있는 변수에 대해서는, 일반적으로 ‘추적 관찰 기간 동안의 사건 수’를 제시하는 편입니다. 다만 이 때, censoring을 감안할 필요가 있습니다. 따라서 ‘사건의 발생 수’를 제시함과 동시에 해당 사건이 연구의 주요 결과 변수라면 이에 대한 그래프를 그려 censoring 및 recurrent event에 대해 고려하는 것이 좋습니다. 더 자세한 내용은 추구 관련 단락에서 다루겠습니다.
 
Dataset cleaning
앞에서 이야기한 것과 같이, 단변량 분석의 궁극적인 목표는 dataset cleaning입니다.

따라서 단변량 분석을 하면서 기계적으로 표를 채워나가는 게 아니라, 각 변수의 평균과 표준편차 / 중앙값과 사분위수 / 최소값과 최대값을 확인하면서 해당 수치들이 기존에 알려져 있는 분포와 유사한 지 확인하는 것이 더 중요합니다. 특히 최소값최대값을 보면서, 생물학적으로 있을 법 하지 않은 값을 찾아 내어 수정할 수 있어야 합니다. 이 때, 단변량 분석을 통해 확인된 결측값 역시 의무 기록 열람 등의 방법으로 메꿔 넣는 것이 좋습니다.
                                                                                                                                                      
공지: 본 문서는 Mitchell H. Katz의 Study Design and Statistical Analysis(Cambridge University Press. 2006년)을 토대로 하여 부분적으로 내용을 추가한 것입니다. 이 책을 참고 도서로 사용하도록 허락하여 주신 Dr. Katz에게 감사 드립니다.
References
  1. Kim BJ, et al. Case characteristics, hyperacute treatment, and outcome information from the Clinical Research Center for Stroke - Fifth division registry in South Korea. J Stroke. 2015;17:38-53
  2. Anavekar NS, et al. Relation between renal dysfunction and cardiovascular outcomes after myocardial infarction. N Engl J Med. 2004;351:1285-1295.
  3. CRCS-5. CRCS-5 Statistics Report 2015. 2015. CRCS-5.

답변

이 게시판은 회원 분들의 활성화를 위하여 정기적, 비정기적으로 연구와 관련된 tip 및 정보를 게시하는 곳입니다. 게시판 글의 작성은 뇌졸중학회 연구활성화위원회에서 맡고 있으며, 연구활동시 도움이 될만한 통계에 관한 도움말, 논문 작성법, 외부 홈페이지 소개 및 노하우 등 연구활동에 관한 전반적인 정보를 제공하고자 합니다. 기본적으로 월1회이상 정기적인 게시물이 작성될 예정이며 간단한 정보 등은 비정기적으로도 게시될 예정입니다. 만약 회원분들 중에서 연구와 관련하여 게시되었으면 하는 내용이 있을 경우에는 rsstrokeorkr@gmail.com 으로 메일을 주시면 가능한 참조하도록 하겠습니다.
번호 제목 작성자 조회 ↓ 등록일
9 9, 10월에 교육자료실에 업로드된 VOD 정보 관리자 535 2016-11-10
8 임상연구에서 사용되는 통계기법이 소개된 홈페이지 관리자 465 2016-11-10
7 임상 연구 설계 및 분석의 첫 걸음 03: 단변량 분석 관리자 1,300 2016-01-04
6 자료분석을 위한 데이터 결합과 변환 기초 관리자 1,297 2015-11-26
5 R에 처음 접근하기 어려운 분들을 위한 EZR 소개 관리자 6,611 2015-09-24
4 임상 연구 설계 및 분석의 첫 걸음 02: 대상 선정과 Databa... 관리자 1,310 2015-08-27
3 통계프로그램 R 소개 및 설치법, Web-based R강좌 소개 관리자 3,722 2015-07-23
2 임상 연구 설계 및 분석의 첫 걸음 01: Research Questio... 관리자 1,801 2015-06-24
1 Net Reclassification Index (NRI) & Integrated Discrimi... 관리자 4,001 2015-05-26

작성 목록

Gets the previous 10 pages. Go to previous page. [1] Go to next page. Gets the next  10 pages.



대한뇌졸중학회
VeriSign