<머리말>

  필자가 약 20년 전 해외 유학 중 통계학과 교수님의 강의에서 들었던 한 문장이 아직도 기억에 남아 있다.

“앞으로 여러분이 살아갈 세상에서는 통계를 이해하는 사람만이 세상을 이끌어 갈 것이다.”

  당시에는 그 말의 의미를 깊이 생각하지 못했지만, 오늘날 빅데이터와 인공지능이 사회 전반의 기술적 흐름을 주도하고 있는 현실을 돌아보면, 그 예측은 상당 부분 현실이 되었다고 느낀다. 특히 사회과학에서 행정학·정책학 분야는 국가의 주요 정책 결정 과정에서 통계 분석 역량이 핵심적인 역할을 차지하고 있으며, 공직을 목표로 하는 학생들에게 데이터 분석에 대한 이해는 이제 선택이 아닌 필수 역량이 되었다고 생각한다.

  필자 역시 학부 시절 통계학 수업을 들으며 어렵고 재미없다는 인상을 강하게 받았던 경험이 있다. 그러나 대학원 과정에서 실제 데이터를 바탕으로 스스로 분석 모형을 설계하고 적용해 나가면서, 통계 분석이 지닌 또 다른 세계를 발견할 수 있었던 것은 큰 행운이었다. 당시에는 학습 자료나 콘텐츠가 지금처럼 풍부하지 않아, 책을 통해 독학으로 분석 모형을 구현하고 프로그램 코드를 작성해야 했다. 실행되지 않는 코드의 원인을 하나씩 수정하며 마침내 결과를 도출했을 때의 성취감은 이루 말할 수 없었다. 이러한 과정 속에서 자연스럽게 프로그래밍 언어를 익히게 되었고, 코딩 그 자체가 주는 즐거움도 경험할 수 있었다. R 언어의 학습 과정이 결코 쉽지만은 않겠지만, 일단 이를 익히고 나면 Python을 비롯한 다른 프로그래밍 언어를 이해하고 습득하는 데에도 큰 도움이 될 것이라 확신한다.

  이 책의 구상은 실제 대학 현장에서 데이터 사이언스를 강의하며 적절한 교재를 찾는 과정에서 출발했다. 기존의 많은 교재들은 프로그래밍 언어나 데이터 구조에 지나치게 초점을 두고 있어, 비전공자 학부생들이 접근하기에는 다소 부담스럽다는 한계를 지니고 있었다. 또한 실제 데이터 세트를 활용한 분석 실습 중심의 교재 역시 충분하지 않다는 점을 확인하게 되었다. 이러한 문제의식을 바탕으로, 데이터 분석 과정에서 반드시 요구되는 핵심 개념과 이론을 중심으로 비전공자도 무리 없이 이해할 수 있는 교재를 집필하고자 결심하게 되었다. 이 책의 집필 과정에서 자료 정리와 내용 검토에 성실히 도움을 준 유민상, 정서윤 학생과 면밀하게 마지막까지 원고를 검토해 준 임윤희 정책대학원 석사과정 학생에게도 깊은 감사의 마음을 전한다.

  마지막으로, 이 책을 효과적으로 활용하기 위한 몇 가지 조언을 덧붙이고자 한다. 첫째, 책에서 작성된 코드를 그대로 실행하는데 그치기보다는 일부를 수정하거나 변형한 뒤, 그 결과를 스스로 예측하고 확인하는 학습 과정을 거치길 권장한다. 이러한 과정은 분석에 대한 이해를 한층 더 깊게 해 줄 것이다. 둘째, ChatGPT나 Gemini와 같은 생성형 AI의 활용은 학습에 도움이 될 수 있으나, 처음부터 이에 의존하기보다는 우선 스스로 R 코드를 작성하고, 해결이 어려운 경우에 보조적인 도구로 활용하길 바란다. 실제로 필자가 학생들의 학업 성취도를 분석한 결과, 생성형 AI에 과도하게 의존하지 않은 학생들이 오히려 더 높은 이해도와 학습 성과를 보였다. 셋째, 처음부터 R 언어를 완벽하게 이해하려 애쓰기보다는 실제 데이터를 활용해 적극적으로 실습하고, 그 과정에서 다양한 오류를 경험하길 바란다. 이러한 오류를 해결해 나가는 경험 자체가 여러분의 분석 역량을 비약적으로 성장시키는 중요한 밑거름이 될 것이다.

2026년 5월

저자들을 대표해서

류근필

 

<차례>

제1장 데이터 사이언스 필요성과 RStudio 세팅하기 

 1. 데이터 분석의 중요성 

 2. R 과 RStudio 소개 및 설치 

 3. 패키지 설치, 자료 저장 및 도움말 

 4. 이 책의 활용 

 

제2장 R 기본 문법 

 1. 기본 연산 

 2. 자료의 생성 

 3. 조건문과 반복문을 통한 자료 생성 

 

제3장 데이터 형식과 구조 

 1. 데이터 형식의 이해 

 2. 데이터 구조의 이해 

 3. 데이터 형식과 구조 확인 및 변경 

 4. 데이터 인덱싱 

 

제4장 데이터 전처리

 1. 데이터 세트 탑재 및 저장하기 

 2. 데이터 탐색 및 결측값 처리 

 3. 데이터의 자르기와 합치기 

 4. 데이터 가공 및 변형 

 

제5장 기초 통계의 이해 

 1. 변수의 측정과 척도 

 2. 자료의 중심경향성 측정 

 3. 자료 흩어짐 측정 

 4. 데이터 분포 

 5. 범주형 변수의 빈도와 비율 분석 

 6. 기초 통계 분석 종합 실습 

 

제6장 데이터 시각화 

 1. 데이터 시각화 의미와 개념 

 2. 범주형 자료 시각화 

 3. 연속형 자료 시각화 

 4. 데이터 시각화 고급(ggplot2) 

 

제7장 모수의 추정과 검정 

 1. 추론통계학의 이해 

 2. 중심극한정리의 이해 

 3. t-분포와 t-검정 

 

제8장 평균값의 차이 검정 

 1. 독립표본 t-검정 

 2. 일원배치 분산분석 

 3. 분석 실습 

 

제9장 연속형 변수 간의 관계 검정 

 1. 공분산 개념 

 2. 상관관계 분석 

 3. 선형회귀분석 

 

제10장 데이터 사이언스의 발전과 미래 

 1. 인공지능의 발전 

 2. 의사결정나무 

 3. 랜덤 포레스트 

 4. K-Means 군집분석 

 5. 인공신경망 모형 

 

부록

 

<저자 소개>

류근필

현재 전남대학교 행정학과 부교수, 데이터사이언스대학원 및 AI융합대학 겸임교수로 재직 중에 있고, 연구 분야는 HR Analytics이다.

 

유민상

전남대학교 행정학과를 졸업했으며, 관심 분야는 행정데이터 분석 등이 있다.

 

정서윤

전남대학교 자율전공학부를 졸업했으며, 통계학을 복수전공했다.