Top

제  목    :    임상 연구 설계 및 분석의 첫 걸음 02: 대상 선정과 Database 구축
작성자 관리자
등록일 2015년 08월 27일 16시 38분 35초 조회 1,310
앞서 우리는 임상 연구를 시작하기 전에 research question을 만들고 이를 PICOT 형식으로 정리하는 과정에 대하여 알아 보았습니다. 여러분이 갖고 있는 궁금함 그리고 호기심이 이제 ‘연구 가능한 형태’로 정리 되었으니, 그 다음 순서로 여러분은 연구를 수행할 자료 즉 분석 가능한 데이터를 구해야 합니다.
 
Reproducible research
오늘 말씀 드릴 내용의 논리적 순서와 맞지 않지만, 뜬금 없는 이야기를 먼저 꺼내도록 하겠습니다. 이 이야기가 가장 중요하기 때문입니다. 여러분이 처한 여러 현실적인 상황 때문에, 지난 번의 research question이나 오늘 말씀 드릴 DB 구축 및 data management는 다소 멀게 느껴질 수도 있을 것입니다. 이미 모든 연구 주제와 데이터가 고정되어 있는 상황이라면, 다음 번에 말씀 드릴 Univariate analysis부터 읽으셔도 될 것입니다. 그렇지만 기초 및 임상 연구를 막론하고, 연구자가 연구 수행 과정에서 뚜렷하게 갖고 있어야 하는 원칙은 바로 이 reproducibility입니다. 그리고 임상 연구 과정에서 reproducibility가 깨어지는 가장 흔한 상황이 바로 data management step이기에, 이 이야기를 먼저 하고 이후 과정으로 진행하겠습니다.

하루에도 수천 개의 연구 논문이 발표되고 있고, 뇌졸중 분야에서도 수십 편 이상의 논문이 매일 Pubmed에 올라오고 있습니다. 그런데 임상 연구자들이 종종 받는 공격 중의 하나가 바로, ‘연구는 하는데 그게 무슨 소용이냐’라는 점입니다. 그러한 비난의 근거 중 하나가, 결국 연구를 발표해도 그 연구 결과가 인용되거나 이용되지 않고 그대로 사라진다는 점일 것입니다. 그리고 새롭게 제기되는 주장이 후속 논문으로 확인되지 못한다는 점 역시 비난의 근거로 사용되고 있습니다.
 
2005년 PLoS Medicine의 편집자인 Ioannidis는 많은 논문들이 잘못된 혹은 옳지 않은 결과를 내고 있다고 지적하였습니다. 이 당시에는, 다양한 bias가 기초 및 임상 연구 논문에 개입되어 있으며 이를 극복하고 또 극복 불가능한 bias는 연구 과정에서 고려하고 배제하며, 논문에서 충분히 설명해야 함을 주장하고 있었습니다.

그로부터 10년이 지난 후, Ioannidis는 다시 PLoS Medicine에 글을 올립니다. 이제는 bias뿐만 아니라 연구의 수행 과정에서 의식적으로 혹은 무의식적으로 개입되는 다양한 ‘잘못된 연구 수행’을 지적하기에 이릅니다. 그러면서, 의학 연구자들이 ‘신뢰’를 얻을 수 있어야 하며, 이는 연구의 결과 뿐만 아니라 연구의 과정 또한 동일하게 반복될 수 있어야 한다고 주장합니다.
 
 
극단적으로는 연구 결과를 출판하기 위해서는 연구 과정에서 최종적으로 분석한 데이터셋을 업로드하여 공유하고, 피어 리뷰 과정에서도 데이터셋을 제출해야한다는 사람도 있습니다. 아직까지는 이러한 data sharing은 유전학 등 생의학 연구의 일부 분야에서만 이루어지고 있으나, 임상 연구자들도 ‘재현 가능성’에 대하여 늘 고민을 하고 이를 유지할 수 있도록 조심해야 할 것입니다.

Reproducible research는, 동일한 연구 방법론을 통하여 동일한 결과를 제시할 수 있는 연구를 의미합니다.
즉, 같은 환자군을 대상으로 하여 동일한 방식으로 데이터를 추출하고 분석한다면, 그 결과 또한 동일해야 합니다. 당연할 말로 들리지만, 실제로는 그렇지 않은 경우가 대부분입니다. 이미 주어진 데이터베이스에서 잘못 입력된 값이 있어서 이를 수정했는데 이에 대한 기록을 남기지 않는다면, 다른 사람이 같은 데이터베이스를 기반으로 같은 결과를 보지 못할 것입니다. 통계 분석 역시 분석 모델을 설정하고 분석 과정의 옵션과 파라미터를 주는 방식에 따라 결과가 달라질 수 있습니다. 그러므로 통계 분석 전에 자세하고 상세한 통계 분석 계획을 만들어야 하며, 통계 분석 과정은 그 모두를 로그로 남겨 기록해 두어야 합니다.

재현 가능한 연구는 연구의 신뢰도를 확보하는 길이며 연구자의 ‘이름이 갖는 가치’를 높이는 방법입니다. 그리고 ‘재현 가능한 연구’는 사전 계획과 자세한 기록을 통해 이루어질 수 있습니다. 임상 연구가 종료된 후, 함께 저장되어야 하는 문서는 다음과 같습니다.

1. Data collection을 위한 workbook
2. Data management 과정을 기록한 data log
3. Dataset / DB summary / Coding sheet
4. Statistical analysis plan
5. Statistical analysis report
 
대상 선정
임상 연구 실무의 첫 발은 언제나 inclusion / exclusion criteria를 설정하는 것입니다. 전 세계의 모든 뇌졸중 환자를 대상으로 임상 연구를 할 수는 없고, 그것은 research question에 따라 불필요한 일이 될 수도 있습니다.

거칠게 요약하여, inclusion criteria는 내 research question의 대상이 되는 환자이며 exclusion criteria는 내 연구의 대상이 되기는 하지만, 어쩔 수 없이 연구에 포함시키지 못하는 환자라고 할 수 있습니다.
위의 그림에서, overarching population은 가상적인 개념입니다. 뇌졸중 연구라면, overarching population은 인류 역사상 존재하였고, 앞으로도 계속하여 발생할 모든 뇌졸중 환자를 의미합니다. Target population은 여러분의 연구가 적용될 수 있는 대상이며, 2015년 현재 여러분의 병원에 내원하는 뇌졸중 환자이고 여러분의 연구 결과를 적용할 수 있는 대상입니다. Source population은 여러분이 연구 데이터를 모으기 위한 대상이며, 이 환자들은 inclusion criteria를 통하여 규정됩니다. 그리고 population은 inclusion criteria로 규정된 환자들 중 exclusion criteria로 배제되지 않아 실제로 분석 대상이 된 환자들입니다.

최근에 발표한 아래 논문을 예시로 들어 설명을 드리겠습니다.
이 논문의 research question은, single small subcortical infarction 환자들 중 parental artery의 atherosclerotic pathology를 시사하는 증거(LAD-branch atheromatous disease 혹은 parental artery의 mild stenosis)가 있는 경우, 발병 3주 이내의 early neurological deterioration이 증가하는가?이었습니다.

이를 위하여, 다음과 같은 inclusion / exclusion criteria를 설정하였습니다.
 
Inclusion criteria

1. 2007년 7월 1일부터 2013년 7월 31일 사이에 입원한 환자 (N, 4961)
2. 증상이 처음으로 확인된 시점 이후 48시간 이내에 내원한 환자 (N, 3702)
3. Ischemic stroke 환자 (N, 3043)
4. Lesion-documented stroke 환자 (N, 2893)
5. Deep perforator 혹은 brainstem의 병변이 있으며, 기전 분류 상 LAD / SVO로 기록된 환자 (N, 788)
6. axial image에서 직경 2cm 이하이면서, single lesion이며 parental artery narrowing ≤50%인 환자 (N, 587)
 
Exclusion criteria

1. MRI rating이 불가능한 환자 (해당 환자 없음)
2. Early neurological deterioration 에 대한 정보가 없는 환자 (해당 환자 없음)
 
이를 통해 최종적으로는 587명을 final dataset에 포함하여 분석을 하였습니다. 이 inclusion/exclusion criteria 및 각 step에서 포함/배제된 환자를 flow chart로 그리면, 바로 study profile 그림이 만들어집니다. 이를 통해 환자 선택이 논리적으로 이루어졌고, 자의적인 취사 선택이 없었음을 보여줄 수 있습니다.
 
Data를 어떻게 수집할 것인가?
자료 수집 및 관리의 흐름도
 
Research question과 PICOT를 설정한 이후, 자세한 study manual에 근거한 자료 수집 및 보관이 진행되어야 합니다. 되도록 자료 수집 이전에 그 계획을 문서로 정리하는 것이 좋습니다. 대부분의 경우, 자료 수집은 한 번 이상 하기 어렵습니다. 특히 의무 기록을 직접 열람하면서 데이터를 모으는 경우, 같은 과정을 반복하면 수집하는 사람의 피로가 증가하고 따라서 값을 잘못 입력하게 될 위험도 증가합니다.

이 글을 읽으시는 여러분의 입장에서는, 많은 경우 교수님이나 선배가 구축해 놓은 데이터베이스를 이용하게 될 것으로 생각합니다. 혹은 환자 명단 및 기초적인 정보가 있는 데이터베이스에 새롭게 연구의 주제가 되는 정보를 수집하여 새로운 데이터베이스를 만들게 될 것입니다.

데이터 수집을 위하여 제가 추천하는 방식은, 마이크로소프트 오피스에 포함되어 있는 액세스를 이용하는 것입니다. 특히 기존에 액세스로 관리되는 DB가 있는 곳에서는, 이 DB에 새로운 Table을 생성하여 자료를 입력하시는 것이 좋습니다. 엑셀 쉬트에 직접 데이터를 입력하는 경우도 많은데, 쉽고 직관적으로 입력 및 수정할 수 있어 많이 사용하고는 있습니다. 다만 엑셀은 데이터가 잘못 입력되기 쉽고, 자칫 원본 데이터가 변경될 수도 있습니다. 어쩔 수 없이 엑셀 쉬트를 이용해야 한다면, 엑셀의 ‘보호’ 기능을 이용하여 입력이 필요한 셀을 제외한 나머지 영역을 수정 불가능하게 만드는 것을 권해 드립니다.
 
변수 설정 및 코딩 시트
데이터베이스는 통상적으로 가로 행에 한 명의 환자가 들어가고 세로 열에 고혈압, 당뇨 등의 정보가 들어가는 2차원 쉬트로 구성됩니다. 이렇게 구성된 데이터베이스는 그대로 통계 분석 패키지로 옮길 수 있습니다.

데이터베이스 구축의 첫 걸음은, 수집 혹은 관리하고자 하는 변수를 설정하는 것입니다. 이 때 고혈압과 당뇨 등 각 환자에서 추출하여 입력할 변수를 사전에 결정하고 각각의 입력 원칙을 정한 문서를 코딩 시트라고 부릅니다. 아래는 한 병원에서 사용하는 코딩 시트의 예시입니다.
이 코딩 시트에서는 각 변수의 value label (coding이라고 표기된 부분)만을 기록해 두었습니다. 각 변수의 의미 및 정의는 별도의 입력 workbook으로 관리하기 때문에, 코딩 시트는 간략하게 표기하였습니다. 하지만 단일 프로젝트의 목적으로 작성하는 코딩 시트에는 각 변수의 정의 (예를 들어, 고혈압의 기준) 및 정보의 출처(의무기록 등)를 함께 기록하는 것이 편리합니다. 코딩 시트는 데이터 수집 뿐만 아니라, 추후 분석 과정에서도 계속 참고하는 자료입니다.

변수를 설정할 때의 팁

1. 되도록 모든 정보는 숫자 형태로 저장하십시오. ‘이름’ 등의 문자는 분석 목적으로 사용할 수 없습니다.
2. 결측값에 대한 정보를 따로 지정하는 것이 좋습니다. 예를 들어, Hb A1c를 수집할 때, 특정 환자에서 Hb A1c를 측정하지 않았다면 이 셀에 999 혹은 9999 등의 값을 입력하는 것이 편리합니다. 빈 칸으로 남겨 두면, 환자에서 Hb A1c를 측정하지 않아 비어 있는 것인지 혹은 아직 데이터를 입력하지 않아 비어 있는 것인지 알 수 없습니다.
3. 결측값 설정은 되도록 ‘생물학적으로 가능한 값’의 범위를 벗어나 있는 숫자를 사용하는 것이 좋습니다. 흔히 결측값으로 999 / 9999를 입력하는데, WBC count는 생물학적으로 999 혹은 9999일 수가 있습니다. 이를 고려하여 triglyceride나 WBC에서의 결측값을 다른 변수와 다르게 설정하는 경우도 있습니다.
4. 결측값 입력에서, ‘논리적으로 결측이 되어야만 하는 변수’가 있을 수 있습니다. 흡연이 가장 대표적인 예시입니다. 흡연력이 없는 사람에서, ‘pack-year’는 결측이 되어야만 합니다. 그런데 그렇다고 해서 ‘pack-year’에 999 등의 일반적인 결측값을 넣으면, 이 변수가 추후 data cleaning 과정에서 사라지게 될 위험이 큽니다. 이런 경우, 998 등의 ‘논리적 결측값’을 뜻하는 값을 입력할 수도 있습니다.
5. 세부적인 정보를 입력해야 할 때에는, 다시 한 번 생각하여 변수를 만드십시오. 예를 들어, 뇌경색 병변의 위치를 각 anatomical location에 대해 입력을 하고자 한다면 frontal cortex / frontal subcortex / caudate 등 십여 개의 위치가 있으며 또 각각에 대해 좌측 / 우측 등 별도의 변수를 만들어야 합니다. 비슷한 정보를 가진 변수가 수십 개가 있어도, 실제 분석 과정에서는 이를 통합하여 분석할 수밖에 없습니다. 그러므로 되도록 초기의 research question에 부합하는 몇 개의 정보만 입력하도록 하는 것이 좋습니다.
 
이렇게 하여 research question 및 PICOT에 따라 연구를 진행하기 위한 데이터가 다 수집되었으면, 다음 순서는 데이터를 들여다보고 정리하여 통계 분석을 위한 데이터셋을 만드는 과정이 필요합니다. 이를 Univariate analysis 및 data cleaning이라고 지칭합니다. 다음 순서에는 이 과정을 진행하도록 하겠습니다.

마지막으로 다시 한 번 강조합니다만, 데이터 입력 및 관리의 모든 과정을 상세히 기록하는 것은 매우 중요합니다.
 

답변

이 게시판은 회원 분들의 활성화를 위하여 정기적, 비정기적으로 연구와 관련된 tip 및 정보를 게시하는 곳입니다. 게시판 글의 작성은 뇌졸중학회 연구활성화위원회에서 맡고 있으며, 연구활동시 도움이 될만한 통계에 관한 도움말, 논문 작성법, 외부 홈페이지 소개 및 노하우 등 연구활동에 관한 전반적인 정보를 제공하고자 합니다. 기본적으로 월1회이상 정기적인 게시물이 작성될 예정이며 간단한 정보 등은 비정기적으로도 게시될 예정입니다. 만약 회원분들 중에서 연구와 관련하여 게시되었으면 하는 내용이 있을 경우에는 rsstrokeorkr@gmail.com 으로 메일을 주시면 가능한 참조하도록 하겠습니다.
번호 제목 작성자 조회 ↓ 등록일
9 9, 10월에 교육자료실에 업로드된 VOD 정보 관리자 534 2016-11-10
8 임상연구에서 사용되는 통계기법이 소개된 홈페이지 관리자 465 2016-11-10
7 임상 연구 설계 및 분석의 첫 걸음 03: 단변량 분석 관리자 1,299 2016-01-04
6 자료분석을 위한 데이터 결합과 변환 기초 관리자 1,297 2015-11-26
5 R에 처음 접근하기 어려운 분들을 위한 EZR 소개 관리자 6,610 2015-09-24
4 임상 연구 설계 및 분석의 첫 걸음 02: 대상 선정과 Databa... 관리자 1,310 2015-08-27
3 통계프로그램 R 소개 및 설치법, Web-based R강좌 소개 관리자 3,722 2015-07-23
2 임상 연구 설계 및 분석의 첫 걸음 01: Research Questio... 관리자 1,800 2015-06-24
1 Net Reclassification Index (NRI) & Integrated Discrimi... 관리자 4,001 2015-05-26

작성 목록

Gets the previous 10 pages. Go to previous page. [1] Go to next page. Gets the next  10 pages.



대한뇌졸중학회
VeriSign