13일 서울 평균기온 변화

 

서울 지역의 관측자료가 있는 1908년부터 최근까지 13일 일평균기온 자료를 석한 결과 201713일 평균기온이 2.0로 평년(-1.7)보다 3.7높아 13일 기온 역대순위 15위를 기록하였다. 13일 평균기온이 가장 높았던 해는 2016년으로 6.5였으며, 가장 낮았던 해는 1918년으로 14.4였다.

 

 

가장 높았던 해의 순위

 

순위

년도

평균기온()

1

2016

6.5

2

1998

5.3

3

2007

5.3

4

1916

5.1

5

1994

4.3

6

1960

4.0

7

2004

3.9

8

1980

3.8

9

1976

3.2

10

1974

3.0

 

가장 낮았던 해의 순위

 

순위

년도

평균기온()

1

1918

-14.4

2

2013

-13.2

3

1958

-12.6

4

1928

-12.6

5

1977

-12.5

6

1926

-12.5

7

1917

-12.4

8

1981

-12.2

9

1923

-12.2

10

1938

-12.1

12일 서울 평균기온 변화

 

서울 지역의 관측자료가 있는 1908년부터 최근까지 12일 일평균기온 자료를 석한 결과 201712일 평균기온이 5.0로 평년(-1.6)보다 6.6높아 12일 기온 역대순위 3위를 기록하였다. 12일 평균기온이 가장 높았던 해는 1916년으로 7.0였으며, 가장 낮았던 해는 1923년으로 16.1였다.

 

 

가장 높았던 해의 순위

 

순위

년도

평균기온()

1

1916

7.0

2

2016

5.7

3

2017

5.0

4

1980

4.7

5

2000

4.2

6

1957

3.6

7

1976

3.5

8

1998

3.2

9

2004

3.1

10

2007

3.1

 

가장 낮았던 해의 순위

 

순위

년도

평균기온()

1

1923

-16.1

2

1977

-12.5

3

1911

-12.5

4

1969

-12.2

5

1919

-11.7

6

2013

-11.0

7

1929

-10.9

8

1918

-10.8

9

1955

-10.2

10

1942

-9.9

 

11일 서울 평균기온 변화

 

서울 지역의 관측자료가 있는 1908년부터 최근까지 11일 일평균기온 자료를 석한 결과 201711일 평균기온이 2.7로 평년(-2.1)보다 4.8높아 11일 기온 역대순위 10위를 기록하였다. 11일 평균기온이 가장 높았던 해는 2000년으로 5.5였으며, 가장 낮았던 해는 1923년으로 15.3였다.

 

가장 높았던 해의 순위

 

순위

년도

평균기온()

1

2000

5.5

2

1916

5.2

3

2014

4.0

4

1980

3.8

5

2004

3.7

6

1914

3.4

7

2007

3.3

8

1973

3.2

9

1950

2.8

10

1976

2.7

 

가장 낮았던 해의 순위

 

순위

년도

평균기온()

1

1923

-15.3

2

1969

-10.4

3

1928

-10.2

4

1911

-10.1

5

1977

-10.0

6

1961

-9.8

7

1913

-9.6

8

1929

-9.2

9

1948

-9.1

10

1955

-8.7

전국평균기온 및 강수량 변화

     

평균기온 변화

 

기상청에서 전국 1973년부터 2016년까지 연속해서 관측자료가 있는 60개 지점의 기상관측자료를 분석한 결과 2016년 연평균기온이 13.7로 평년(12.6)보다 1.1높아 연평균기온 사상 최고기온을 기록하였다.

연평균기온의 장기변화 경향을 분석한 결과 평균기온 상승률은 0.266/10yr로 나타났다.

전국 60개 관측지점 중 연평균 기온상승률이 가장 높은 지역은 원주(0.631/10yr)로 나타났으며, 이어 청주(0.566/10yr), 수원(0.521/10yr) 등의 순이었다.

 

 

연평균기온 순위

 

가장 높았던 해의 순위

 

순위

년도

평균기온()

1

2016

13.7

2

1998

13.5

3

2015

13.5

4

2007

13.3

5

2004

13.3

 

가장 낮았던 해의 순위

 

순위

년도

평균기온()

1

1980

11.3

2

1974

11.4

3

1981

11.5

4

1986

11.6

5

1976

11.7

 

강수량 변화

 

1973년부터 2016년까지 전국 60개 관측지점의 연강수량을 분석한 결과 2016년 전국평균 강수량이 1336.2mm로 평년(1358.2mm)대비 98% 수준으로 연강수량 역대순위 22위를 기록하였다.

연강수량의 장기변화경향을 보면 강수량변화율은 2.8%/10yr씩 증가하는 경향을 보였다.

지역별로 보면 전국 대부분지역에서 강수량이 증가하는 경향을 보인 가운데 특히 서귀포 지역에서 6.1%/10yr의 증가율을 보였고, 서울지역도 5.9%/10yr의 증가율을 보이는 등 제주도와 중부 일부지역을 중심으로 5%/10yr 이상의 증가율을 보였다. 반면 대관령(-0.3%/10yr) 지역은 오히려 감소하는 경향을 보였다.

 

 

연강수량 순위

 

가장 많았던 해의 순위

 

순위

년도

강수량(mm)

1

2003

1912.9

2

1998

1797.4

3

1985

1720.7

4

1999

1718.2

5

2011

1669.2

 

가장 적었던 해의 순위

 

순위

년도

강수량(mm)

1

1988

899.8

2

1994

949.2

3

1982

1008.2

4

1977

1009.6

5

2008

1036.1

 

R은 무엇이고, 왜 R인가에 대해서 알아보았으므로 이제 직접 R을 다운로드해서 컴퓨터에 설치해보도록 하겠다. 

- 하둡 클러스터 설치하는 것마냥 복잡하고 어려운 것도 아니고 (다운로드, 몇번 클릭하다보면 설치 끝), 
- 상용 통계 툴처럼 다운로드 하는데 시간 올래걸리지도 않으며 (base 패키지 파일 사이즈 작음. 62Megabytes), 
- 사용자 등록을 하라는 메시지가 뜨지도 않는다. (오픈소스니깐)

아래의 절차에 따라 차근차근 따라서 진행해보도록 하자. 


1. CRAN(The Comprehensive R Archive Network, http://www.cran.r-project.org/)에 접속하기

 

CRAN 사이트에 접속하면 아래와 같은 화면이 보일 것이다. 

CRAN 사이트는 R 사용자라면 앞으로 자주 방문할 곳이므로 북마크를 해놓도록 하자. 수많은 패키지 검색, 다운로드, 매뉴얼, R 새로운 소식 등을 접할 수 있는 R의 허브이자 정보집합소이다. 

 


2. 해당 OS에 맞게 R 다운로드 하기 선택

 

Linix, (Mac) OS X, Windows 중에서 본인의 컴퓨터에 해당하는 OS를 선택하여 다운로드 하도록 한다. 


3. Subdirectories에서 'base'를 선택

 

분석/그래픽/프로그램 용도로 사용할 것이므로 base, contrib, Rtools 의 세개 카테고리 중에서 'base' 시스템을 선택하여 다운로드 하도록 한다. 

(참고로, R은 base 시스템을 먼저 설치하고(지금 이거 하고 있는 중임), (분석 기법별) 패키지를 이후에 하나씩 추가로 필요에 따라서 설치해서 사용하게 된다.)

 

 


4. 버전, OS 확인하고 다운로드 하기

 

필자는 Windows 사용 중이므로 'Download R 3.2.1 for Windows'를 클릭해서 다운로드 하였다. 

(참고로, R은 버전 upgrade가 활발하게 이루어지고 있는 편이고, 버전에 따라서 설치해둔 패키지가 안돌아가는 경우도 있고 해서 사용하다가 어느 정도 기간이 지나면 upgrade를 해주어야 하는 일이 생긴다.)



미러 사이트를 선택하라는 메시지가 나올텐데 'Korea' 3군데 중에서 한 곳을 선택해서 다운로드 하도록 하자. 


5. 다운로드한 R파일 클릭해서 설치 시작하기

 

독자의 컴퓨터의 '다운로드' 폴더에 가보면 'R-3.2.1-win' 이라는 방금전 다운로드 받은 프로그램 파일이 들어있을 것이다. 클릭해서 설치 시작하도록 하자. 



설치 언어 '한국어' 선택하고, 디폴트 상태 유지한 채로 '예(Yes)'만 계속 몇 번 클릭하다 보면 어느새 설치 끝난다. 



6. R 실행하기

 

컴퓨터바탕화면에 가보면 R 프로그램 아이콘이 새로 생긴 것을 확인할 수 있다. 
R i386 3.2.1 은 "32비트" 컴퓨터용의 R 3.2.1 버전이라는 뜻이고, R x64 3.2.1 은 "64비트" 컴퓨터용의 R 3.2.1 버전이라는 뜻이다. 
64비트로 처리하는 R x64 3.2.1이 처리속도 면에서 당연히 빠르겠지만, 본인의 컴퓨터가 이를 지원하도록 세팅이 되어있는지 확인하고 자신에게 해당하는 프로그램을 선택해서 쓰면 된다.

R이 메모리 기반으로 분석을 진행하다보니 대용량 데이터를 클라이언트PC에서 돌리다 보면 뻣어버리는 수가 있다.

 


7. R 실행화면

 

컴퓨터 바탕화면에 있는 R 아이콘 클릭했더니, 아래의 R 프로그램 화면이 뜬다면 설치 성공했다는 뜻이다. 

 

R Console의 프롬프트(>) 옆에 아래와 같이 한 줄씩 입력한 후 [Enter]키를 누른다.

 

> x <- c(2, 4, 5, 3, 6, 1, 6, 4, 5, 3)

> y <- c(6, 7, 4, 9, 8, 9, 7, 9, 8, 9)

> mean(x)

> mean(y)

> t.test(x, y, alternative=”two.sided”, paired=FALSE)

 

c(2, 4,): 괄호 안에 있는 숫자들을 하나의 열 벡터(vector)로 합친다

x <- c(): x라는 변수에 생성한 벡터를 할당

mean(x): x라는 변수에 들어있는 값들의 산술 평균을 계산

t.test(x, y,): 독립적인 두 그룹 x, y의 평균 차이에 대한 t 검정

 

명령어 뒤에 [Enter]키를 누르면 입력한 명령어에 따라서 바로 다음 줄에

결과를 출력하기도 하고 내부적으로 명령을 수행한 후 아무 응답 없이

다음 명령어 입력을 기다리는 프롬프트를 출력하기도 한다.

다음은 정상적으로 명령어를 입력하였을 때의 R Console 화면이다.

> x <- c(2,4,5,3,6,1,6,4,5,3)

> y <- c(6,7,4,9,8,9,7,9,8,9)

> mean(x)

[1] 3.9

> mean(y)

[1] 7.6

> t.test(x,y,alternative="two.sided", paired=FALSE)

 

Welch Two Sample t-test

 

data: x and y

t = -4.9992, df = 17.998, p-value = 9.303e-05

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-5.254946 -2.145054

sample estimates:

mean of x mean of y

3.9 7.6

 

명령어 입력 후 [Enter]를 눌렀을 때 경우에 따라서는 다음 줄에 + 표시가 나타나기도 하는데 이는 온전한 명령어를 입력하지 않은 상태에서 [Enter]키를 눌렀을 때이다. 명령어 문장을 문법에 맞추어 나머지 명령어를 입력하거나 [Esc]키를 눌러 명령어 입력을 취소하면 프롬프트(>) 상태로 돌아올 수 있다.

R을 종료하기 위해서는 RGui[파일] 메뉴에서 [종료]를 선택하거나 프롬프트에서 q( )라는 명령어를 입력한 후 [Enter]키를 누르면 된다.

R은 무엇인가? (What is R?)

 R이 무엇인지에 대해서 R 공식 사이트(http://www.r-project.org/)에서는 "R은 통계 분석과 그래픽을 위한 언어이자 환경이다(R is a language and environment for statistical computing and graphics.)"라고 정의하고 있다. 

 오픈소스 "통계 분석(statistical computing)" 툴이라고 많이 알고 있을 듯 한데, 이에 더해 "그래픽(graphics)", "언어(language)", "환경(environment)"이라는 말은 무슨 말이가 하고 관심이 갈 듯 하다. 

 특히 R 공식 사이트의 "About R" 메뉴(http://www.r-project.org/about.html)에서는 첨언하기를 "많은 사용자들이 R을 통계시스템이라고 생각지만, 우리는 R을 통계 기법이 실행되는 환경으로 생각해주기를 바란다 (Many users think of R as a statistics system. We prefer to think of it of an environment within which statistical techniques are implemented.)" 고 말하고 있다. 

 이는 R이 통계분석(statistical computing)과 그래프(graphics)가 파워풀하다는 점 외에도 "(프로그래밍) 언어(language)"이자 "(분석/개발) 환경 (environment)"로서 타 분석 툴과 차별화되는 강점이라고 말할 수 있겠다. 

 참고로 덧붙이자면, R은 오클랜드 대학교의 Robert Gentleman and Ross Ihaka에 의해서 처음 개발되었으며, 1997년 부터는 contributor들로 구성된 핵심 그룹에 의해서 소스코드가 관리되고 있고, 오픈GNU General Public License에 의거해서 무료로 사용할 수 있는 오픈소스 소프트웨어이다.  

 그럼, 자연스레 왜 R인가? R이 여타 분석 소프트웨어와 다른 점, 강점이 무엇인가로 넘어가보도록 하자. 


  • 왜 R인가? (Why R?)

 R을 통계 분석 위주로 사용해본 개인적인 경험에서 R이 좋은 점을 순서대로 적어보자면, 


1) 무료, 공짜, 0원 (free) 

오픈소스로서 무료이다 보니 원하는 사람, 기관, 기업이면 가져다가 바로 사용할 수 있다. 특히, 요즘 우리나라처럼 장기불황의 그림자에 짖눌려 기업에서 IT예산이 긴축 일변도인 상황에서는 무료라는 점이 그 어느때보다도 큰 매력으로 다가올 것 같다. 

2) 안되는게 없는 분석 기능 (packages)

R에는 2015년 현재 4천개가 넘는 통계분석 패키지가 있다. 가장 최신의 분석기법이 상용 통계분석 툴에는 없더라고 R에는 있을 가능성이 높다. 오픈소스이다 보니 전세계의 분석가, 개발자들이 R의 프로그래밍 언어이자 개발환경이라는 장점을 활용해 분석 패키지, 자동화된 사용자 정의 함수를 만들어서 배포, 공유하는 생태계가 형성되어 있으며, 이를 통해 어느 상용 툴보다도 빠르게 또 광범위하게 분석 기능이 확장되고 고도화되고 있는 것이다. 


3) 강력한 그래프 기능 (graphics)

머리로 생각할 수 있는 거의 대부분의 그래프는 R로 프로그래밍해서 그릴 수 있다. 게다가 이쁘기까지 하다. R로 그래프를 그려서 바로 신문이나 책, 인터넷 포스팅에 사용해도 전혀 손색이 없을 정도로 완성도 높게 그래프가 그려진다. 엑셀에서는 불가능한, 다양한 데이터 조건을 줘서 그래프를 그리는 것도 가능하다. 시각화가 분석에서 가지는 중요성을 생각해본다면 통계 전문가가 아니어서 다양한 분석 패키지를 쓸 일이 없는 사용자라 하더라도 R의 강력한 그래프 기능 하나만 가지고도 R을 공부하고 사용할만한 충분한 값어치가 있다고 생각한다. 블로그 포스팅 하면서 R의 시각화, 그래프 기능에 대해서 자세하고도 집요하게 소개를 해보고 싶은 욕심이 있다. 


4) 데이터 처리도 거뜬 (data manipulation)

데이터 분석을 하다보면 데이터 수집/처리/탐색적분석이 투입 공수의 60~80%를 차지하고 모델링은 상대적으로 적은 시간이 소요된다. 데이터를 떡 주무르듯이 자유자재로 다룰 수 있어야지 '데이터 분석 좀 하네'라는 소리를 들을 수 있을텐데, R은 데이터 처리에 있어서도 매우 강력한 툴이다. 


5) 객체 지향 프로그래밍 언어 (object-oriented programming language)

일회성 분석하고 끝낼게 아니라면, 시스템화/자동화를 해야하는 상황이라면, 개발자라면 '객체 지향 프로그래밍 언어'라는 말이 가지는 힘, 의미를 잘 알 것이라고 생각한다. R은 벡터 연산과 Indexing이 정말 유용하고 강력하며, 사용자 정의 함수와 루프 돌리는 프로그래밍 언어 또한 강력하고, 지도 등의 애플리케이션과도 연동이 되는데, 거기에 통계분석까지 된다. 구글이 회사차원에서 R을 사용한다고 하는데, 아마 이런 이유들 때문에 상용 통계 툴이 아니라 R을 사용하는게 아닌가 싶다. 


6) 커뮤니티, 공개/공유된 자료 (community, google.com, coursera.org, etc)

국내는 아직 R사용자가 그리 많아보이지는 않으나, 해외에서는 이미 R사용자가 꽤 많다. R 분석하다가 뭔가 잘 안된다거나 궁금한게 있다면 Google에 검색해보라. 없는거 빼고 다 있다. R 커뮤니터, 블로그도 많다. R 관련 책도 많다. Coursera와 같은 오픈 강좌에도 R 관련 교육이 있다. 


7) 쉬운 설치(Easy to install), 실습 데이터셋 (embedded data-set)

통계분석 공부 시작하는 초급자라면 클릭 몇 번으로 끝나는 쉬운 다운로드/설치, 그리고 분석을 위한 실습 데이터셋이 패키지에 기본으로 따라온다는 점이다. 분석 이론 공부 끝났는가? 그럼 10분 안에 공짜로 쉽게 설치해서 바로 데이터셋 불러다가 분석 실습할 수 있다. 빅데이터 분석한다고 하둡 클러스터 구성하고 소프트웨어 설치하다가 진빼고 지쳐 나가떨어져본 사람이라면 R 설치가 누워서 떡먹기보다 쉽다는 점에 놀라지 않을 수 없을 것이다. 거기다가 RStudio 깔아서 쓰면 사용자 UI도 꽤 좋고 편하다. (RStudio도 기업용이 아니라면 공짜.^^)


8) 소위 뜨는 분석 언어 (Hot Job Trend)

R과 Python 공부하면 좋다고 긴 말이 필요 없을 것 같다. 아래의 3개 Job Trend 그래프를 보면 뭔가 느끼는게 있을 테니...

(* 그래프 source: http://r4stats.com/articles/popularity/)



(* 그래프 source: http://r4stats.com/articles/popularity/)



(* 그래프 source: http://r4stats.com/articles/popularity/)

+ Recent posts