Top

제  목    :    통계프로그램 R 소개 및 설치법, Web-based R강좌 소개
작성자 관리자
등록일 2015년 07월 23일 11시 23분 41초 조회 5,690
0. 서론
 
연구를 디자인하고, 결과를 분석, 가설을 검증하는 모든 과정에 있어서 통계적 분석은 필수적이다. 이는 비단 의학분야에만 국한된 내용이 아니며 다양한 학문분야에서 공통적으로 통계의 중요성은 지속적으로 증가하고 있다. 현재 의학분야에서 통계분석을 위하여 많이 쓰이는 프로그램으로는 SPSS, SAS, R, STAT가 대표적이다.
Figure. A logarithmic view of the number of scholarly articles found in each year by Google Scholar. This combines the previous two figures into one by compressing the y-axis with a base 10 logarithm.
From http://r4stats.com/articles/popularity/
 
각 통계소프트웨어 별로 살펴보면 SPSS는 GUI형식을 통하여 사용자가 보다 간편하게 분석을 실시할 수 있다는 장점이 있으며, SAS는 가장 전통적이고 신뢰도 높은 통계프로그램이다. 다만 SPSS, SAS는 모두 유료프로그램이기에 학교나 병원 등에서 단체로 구입하지 않은 경우 개인이 직접 구매하여 사용하기에는 매우 부담스러운 가격이다. 이에 비하여 R은 일단 freeware이기에 비용 및 license 문제에서 자유로우며, 원하는 기능을 직접 추가할 수도 있기에 연구자간에 자유로운 코드 개발과 공유가 가능하다는 장점이 있다. 이러한 장점을 기반으로 R은 지속적으로 사용이 증가해 왔으며 실제로 최근 발표되는 의학분야 논문의 상당수가 R을 사용하고 있다. 다만, R의 경우 text기반의 코드편집이 필요하기에 (모든 명령어를 직접 키보드를 통해 입력) 초보자의 접근이 어렵다는 단점이 존재한다.
 
[R을 설치 후 실행하면 나타나는 화면. 처음에는 정말 막막하다]
이는 SAS, STATA의 경우도 마찬가지이기는 하지만, R은 무료라는 장점이자 단점으로 인하여 사용자에 대한 세세한 도움말 등이 부족하다 보니 더욱 초보자에게 어렵게 느껴지는 것도 사실이다.

그렇지만 R을 익힘으로써 얻을 수 있는 장점은 매우 명확한데 1) SPSS 등에서는 불가능한 분석이 가능해지고, 2) 기존에 가능한 분석이라 할 지라도 훨씬 빠르고 간편한 분석이 가능하며, 3) 강력한 그래프 기능 등을 통하여 보다 효과적인 정보 전달이 가능해진다. 근본적으로 R에 대한 초기 진입장벽을 넘기 위해서는 결국 R에 대한 기본적인 공부가 필요하다. R 사용법 및 R을 이용한 통계분석방법에 대하여 매우 다양한 R서적이 시판되고 있으며, 최근 수년 동안에는 한글로 된 R서적들도 많이 출간되었기에 일단 배우고자 한다면 정보를 얻을 곳은 많다. 특히 서적 이외에도 R에 관한 공개자료가 인터넷에 많이 존재한다.
 
[Google에서 R tutorial로 검색하면 매우 다양한 강좌를 찾을 수 있으며, YouTube에서 동영상 강좌도 다수 존재한다]
오늘은 최초 R의 설치법을 설명드리고, 혼자서 R사용법을 익히는데 도움을 받을 수 있는 공개자료를 몇가지 소개드리도록 하겠다.
 
 
1. R install
https://cran.r-project.org/bin/windows/base/R-3.2.1-win.exe
windows사용자의 경우 위파일을 다운로드받은 뒤 실행하면 설치가 시작된다 (2015.7월 기준으로 최신버젼의 설치파일이다).
만약 Mac이나 Linux사용자의 경우에는 http://cran.r-project.org/ 접속하여 운영체계에 맞는 프로그램을 선택하여 다운로드하자.
 
[https://cran.r-project.org/]
Windows판을 기준으로 다운받은 R 설치파일을 더블클릭하면 설치와 관련된 아래와 같은 화면이 순서대로 나오고 모두 default인 상태로 진행하면 설치가 완료된다 (아래 화면은 Ver 3.2.0으로 나와있으나 설치과정은 동일하다).
 
[R설치 과정. 설치시의 모든 선택 옵션은 default로 해도 상관없다]
 
R설치가 완료되면 64bit운영체계의 경우 위와 같은 두개의 R실행아이콘이 생성되고, 32bit운영체계(XP등)의 경우에는 한개의 R실행아이콘이 생성된다. 해당 아이콘을 더블클릭하면 R이 실행된다. 기본적으로 64bit운영체제의 경우 둘 중 아무것이나 실행해도 상관없다.
 
[R실행화면. 위는 영문판 화면이며 한글 window에서 설치한 경우 한글메뉴 및 한글도움말이 나온다]
 
 
2. http://r4pda.co.kr/
Google에서 엔지니어로 근무하시는 서민구씨가 작성한 R 책자를 다운받을 수 있다. 초보자를 위한 R 설치단계부터 실질적인 분석방법 및 그래프화 기능까지 잘 정리되어 있으며 위 홈페이지에서 pdf파일로 공개되어있다. 최근 책으로도 출판되었고 R을 처음 시작하는 분이라 해도 충분히 떠라 할 수 있을 만한 내용들로 구성되어 있다. 세부내용은 위 홈페이지 http://r4pda.co.kr/ 에서 확인해보도록 하자.
 
 
3. Datacamp
https://www.datacamp.com/courses
R을 처음 접하는 경우에도 쉽게 따라 할 수 있도록 화면상에서 하나씩 실습을 하게 해주는 유용한 사이트이다. R은 근본적으로 실습을 해보아야 사용법을 익힐 수 있는데 이곳에서는 R 사용시의 화면을 그대로 웹화면으로 보여주고, 사용자가 실습예제에 따라 직접 R명령어를 입력할 수 있게 해준다. 매 단계에서 정답을 입력하면 다음 단계로 넘어가고 틀리면 오답이라고 표시되며 힌트를 확인할 수 있다. 초보자용 강좌부터 고급강좌까지 매우 여러 단계의 프로그램이 준비되어 있다. 심도있는 강좌로 넘어가면 강의료가 있는데 보통 초보자용 강좌는 무료이다.
 
이곳에서 기초 R강좌를 수강해 보자.
https://www.datacamp.com/courses 주소로 접속하면 아래와 같은 화면이 뜬다 (익스플로러의 경우 너무 구버젼일 경우 사용이 어려울 수 있다. 익스플로러를 업그레이드 하거나 혹은 Firefox나 Chrome을 설치하고 접속하는 것을 추천한다).
 
[Datacamp의 R강좌들 소개 화면. 다양한 강좌들이 준비되어 있다]
홈페이지의 강좌들을 듣기 위해서는 우선 회원가입이 필요하고, 회원가입은 무료이다. 가입을 위해서 홈페이지 상단 우측에 위치한 `Create free account` 를 클릭해보자.
 
[Datacamp 계정 생성 화면]
새로운 계정을 만들기 위해서는 사용할 email주소와 암호를 입력하고 ‘Create free account’ 버튼을 누르면 이 홈페이지에서 사용할 계정이 생성된다. 홈페이지에서 사용할 ID/Pass이므로 잘 기록해두자. 만약 기존에 가진 Facebook이나 Google plus계정을 이용하고 싶으면 위쪽의 해당 아이콘을 클릭하고 관련 정보를 입력하면 역시 사용 가능하다.

계정이 성공적으로 생성되면 아래와 같은 화면이 나타난다. 어떤 강좌를 들을지 선택해야 하는데일단 기초 단계를 배우기 위해서 제일 위에 나온 “Introduction to R” 강좌의 ‘Start Source’ 버튼을 골라주자.
 
[Introduction to R 강좌를 선택하자]
‘Start Course’를 누르면 선택한 과정의 대략적인 정보가 나온다. “Introduction to R”은 Beginner 난이도, 약 4시간 과정이라는 내용이다.
 
[Introduction to R 강좌에 대한 설명]
녹색인 ‘Start Course’를 누르면 실제 해당 과정이 시작되고 아래와 같은 화면의 세부 목차가 보인다. 화면의 아무 곳이나 클릭하면 다음 화면으로 넘어간다.
 
[강좌에 들어오면 처음에 보이는 목차]
처음이다 보니 화면의 구성과 어떻게 강좌를 보고 진행해야 하는지에 대한 tutorial이 차례로 등장한다. 찬찬히 화면의 설명을 읽어보면 Datacamp의 진행 방식과 구조에 대하여 설명해주고 있다.
 
[How it work, 진행 과정에 대한 사용 매뉴얼이니 처음에는 잘 읽어두자]
내용을 찬찬히 읽어보면 화면 지시에 따라 R코드를 입력하고 ‘Submit Answer’를 누르면 정답여부에 따라 다음 단계로 진행이 된다는 내용이다. 또한 # 기호 뒷부분의 글은 주석이라는 설명이 적혀 있다. 내용을 확인했으면 Next 버튼을 누르자.
 
이번에는 화면 아래쪽의 R console 화면에 대한 내용이다. 이곳은 실제 R을 실행했을 때의 화면과 같다고 보면 된다. 이곳에 R명령어를 입력하면 실제로 입력한 코드가 실행된다 (다만 정답여부는 판별해주지 않는다). Next버튼을 누르자.
 
우측 위쪽에 위치한 my_script.R이라고 명시된 화면에 대한 설명이다. 이곳이 실제로 사용자가 문제풀이용 R코드를 입력할 수 있는 곳이다 (정답을 적어야 하는 곳). 매 단계에서 이곳에 화면지시에 맞는 R명령어를 입력해야 하고, 입력 후에 우측 밑의 녹색버튼인 ‘Submit Answer’ 버튼을 누르면 정답여부가 판별된다. 답을 잘 모르겠으면 좌측의 Get Hint를 눌러볼 수 있다.
 
Step 5설명은 R console 창에 관한 내용이고 Step 6는 화면 맨 밑의 버튼은 앞뒤 문제로 이동이 가능하다는 설명이다.
 
Step 6가 기본 설명의 마지막이므로 End tour버튼을 누르면 실제 실습이 시작된다.
 
[최초의 실습 문제 화면]
화면에 아무것도 없고 위와 같은 화면만 뜰 것이다. 막막할 수 있는데 화면 좌측의 지시글을 한번 읽어보자 (How it works). 해당 내용과 우측의 my_script_R 창에 이미 적혀있는 내용을 보면, 3+4를 계산하려면 (# Calculate 3 + 4) 화면에 3 + 4 라고 입력하면 된다는 내용이다 (# 다음은 주석이다).

우측 화면 아래쪽의 R Console 창 (전에 말했듯이 실습이 가능하다)에 커서를 놓고 3+4 라고 입력하고 Enter를 눌러보면 7이 계산되어 출력된다 (R에서 숫자나 변수, 부호사이에 있는 빈칸은 무시된다. 3+4 와 3 + 4 는 동일하게 취급된다).
 
이처럼 R Console 창에서는 R코드의 실행 결과를 미리 직접 확인해 볼 수 있다.
다시 화면 좌측의 Instruction을 살펴보면, 이번 단계에서 우리가 풀어야 하는 문제는 6+12 를 계산하는 코드를 입력하는 것이다. (Add a line of code that calculate the sum of 6 and 12, and hit the ‘Submit Answer’ button.)
 
[Introductions 에는 실제로 어떻게 해야 다음 단계로 넘어갈 수 있는지에 대한 설명이 나온다]
문제로 제시된 6+12를 R에게 계산시키려면 어떻게 해야 할까? 당연히 6+12를 입력하면 된다. 아래처럼 my_script.R 화면에 6+12를 직접 타이핑하여 입력하고 우측 밑의 Submit Answer를 눌러보자.
 
[my_script.R 화면에 정답을 입력하고 ‘Submit Answer’를 누르면 Exercise Completed 라고 성공을 알려준다]
정답이 맞으면 Exercise Complete라고 나오면서 첫 문제를 통과하였다. Next Exercise를 누르면 다음 문제로 넘어간다.
 
[두번째 문제의 Introductions]
이번 문제는 2의 5승을 계산하기 위하여 2^5를 입력하라는 내용과, 28을 6으로 나눈 나머지를 구하기 위해 28 %% 6을 입력하라는 내용이다. R에서의 사칙연산과 지수표현 방식에 대한 설명이다. 지시에 따라 해당 코드를 입력하고 ‘Submit Answer’를 눌러보자.
 
[두번째 문제의 정답]
제대로 입력하였다면 역시 Exercise Completed 화면이 나오면서 다음 과제로 넘어갈 수 있다.
 
[두번째 문제의 성공화면]
Datacamp는 이와 같은 방식으로 차근차근 R의 기본 문법과 사용법을 익혀나가는 구조이다. 직접 문제를 해결하면서 단계별로 익힐 수 있도록 구성되어 있기에 R사용법을 익히는데 많은 도움이 된다. 또한 여기서 소개한 초보자 과정만 있는 것이 아니고 Data manipulation 및 다양한 R과정들이 준비되어 있으므로 단계별로 본인에게 맞는 강좌를 수강해보자.
 
[다양한 Datacamp의 R강좌들]
 
4. Stanford University online program; Statistical Learning
https://lagunita.stanford.edu/courses/HumanitiesandScience/StatLearning/Winter2015/info

스탠포드 대학교에서 무료로 공개하는 online 동영상 강좌로서 통계에 대한 기초 강의 + R 실습에 관한 내용이다. 영어이기는 하지만 통계에 대한 기본적인 개념 소개부터 우리가 흔히 사용하는 통계 기법에 대한 내용을 가능한 쉽게 설명해주고 있다. 또한 그에 해당하는 내용을 직접 R을 통해 재현해볼 수 있도록 해준다. R에 대한 기초사용법으로는 좀 어려운 면도 있지만 통계에 대한 기본 동영상 강의가 워낙에 잘되어 있어 이자리에서 소개드린다. 기본적인 t-test부터 cross-validation, machine learning 등 실질적인 통계기법에 대한 소개도 매우 광범위하게 다루며, 놀라운 것이 해당 강의에 사용되는 text북은 springer에서 실제로 판매하고 있음에도 공개적으로 무료 pdf판으로 배포하고 있다.

http://www-bcf.usc.edu/~gareth/ISL/
이주소에 가면 pdf파일의 다운로드 링크가 공개되어 있다.

단순히 동영상 강의를 보기 위해서라면 YouTube 동영상 모음이 있으나, https://www.youtube.com/playlist?list=PL1c_4W4hOW-TeRpsWItCCaVZu0ERJYKRk

실제 Stanford Online 홈페이지에서 단계별로 Quiz등도 풀면서 강의를 듣는 것을 추천한다.
Stanford Online 홈페이지주소는 아래와 같다.
https://lagunita.stanford.edu/
 
[Stanford Online 홈페이지, 통계학 뿐만 아니라 다양한 강의가 open되어 있다]
가입하려면 Stanford Online 홈페이지에서 우측 위쪽의 Register 버튼을 클릭하자. 다른 곳과 마찬가지로 email 및 이름 등을 입력하고 register를 마치면 회원등록이 되고 수강할 강좌를 고를 수 있다. 강좌를 듣기 전에 계정을 활성화하는 단계가 필요한데 입력했던 email함을 확인해보면 계정 activate 에 관한 email이 와있다 (없으면 spam함을 확인해보자). email안의 링크를 한번 클릭해주면 activation이 완료된다.

로그인 된 상태에서 https://lagunita.stanford.edu/ 에 접속해보면 첫 화면에 Statistics in Medicine라고 나오지만 (이것도 의학통계강좌이기는 하다. 기회가 되면 들어보자.), 여기서 소개드릴 강좌는 좀더 스크롤을 좀 내렸을 때 나오는 STATISTICAL LEARNING 강좌이다.
 
[화면에서 스크롤을 내리면 STATISTICAL LEARNING 강좌를 찾을 수 있다]
STATISTICAL LEARING 강좌를 클릭해서 들어가면 강좌에 대한 설명이 나오고 REGISTER FOR STATLEARNING 버튼을 누르면 수강이 가능하다.
 
[강좌에 대한 기본 설명. 가격은 free이다]
 
[강좌에 등록하면 세부 내용을 확인할 수 있다]
View Archived Course를 클릭하면 코드에 대한 세부 설명이 나오고 화면의 위쪽 메뉴에서 Courseware를 선택하면 Ch1부터 강좌를 들을 수 있다.
 
 
강좌는 기본적으로 동영상 강의가 제공되며, 대사는 script를 통해 화면에 표시되기에 이해에 어려움은 크게 없을 것이다. 또한 동영상파일 및 대사집의 다운로드도 가능하여 강의록부터 모든 것이 완전히 공개된 강좌라고 볼 수 있다. 앞서 말한 pdf파일에 보다 자세한 내용들이 모두 기술되어 있다. 동영상 강의만 있는 것이 아니라 각 단계별로 Quiz가 있으며 (통계에 대한 기본 개념을 묻는 경우가 많다보니 꽤 어렵다) Chapter가 끝날 무렵에는 R실습에 관한 강좌 및 동영상이 제공된다.

답변

이 게시판은 회원 분들의 활성화를 위하여 정기적, 비정기적으로 연구와 관련된 tip 및 정보를 게시하는 곳입니다. 게시판 글의 작성은 뇌졸중학회 연구활성화위원회에서 맡고 있으며, 연구활동시 도움이 될만한 통계에 관한 도움말, 논문 작성법, 외부 홈페이지 소개 및 노하우 등 연구활동에 관한 전반적인 정보를 제공하고자 합니다. 기본적으로 월1회이상 정기적인 게시물이 작성될 예정이며 간단한 정보 등은 비정기적으로도 게시될 예정입니다. 만약 회원분들 중에서 연구와 관련하여 게시되었으면 하는 내용이 있을 경우에는 rsstrokeorkr@gmail.com 으로 메일을 주시면 가능한 참조하도록 하겠습니다.
번호 제목 작성자 조회 ↓ 등록일
9 9, 10월에 교육자료실에 업로드된 VOD 정보 관리자 863 2016-11-10
8 임상연구에서 사용되는 통계기법이 소개된 홈페이지 관리자 792 2016-11-10
7 임상 연구 설계 및 분석의 첫 걸음 03: 단변량 분석 관리자 1,700 2016-01-04
6 자료분석을 위한 데이터 결합과 변환 기초 관리자 1,731 2015-11-26
5 R에 처음 접근하기 어려운 분들을 위한 EZR 소개 관리자 8,987 2015-09-24
4 임상 연구 설계 및 분석의 첫 걸음 02: 대상 선정과 Databa... 관리자 1,685 2015-08-27
3 통계프로그램 R 소개 및 설치법, Web-based R강좌 소개 관리자 5,690 2015-07-23
2 임상 연구 설계 및 분석의 첫 걸음 01: Research Questio... 관리자 2,253 2015-06-24
1 Net Reclassification Index (NRI) & Integrated Discrimi... 관리자 6,464 2015-05-26

작성 목록

Gets the previous 10 pages. Go to previous page. [1] Go to next page. Gets the next  10 pages.



대한뇌졸중학회
VeriSign