Smart Editor™ WYSIWYG Mode

<머리말>
인문사회과학에서의 양적 조사 방법인 데이터 분석은 지금까지는 통계학으로 인식되어 왔다. 그런데 이러한 데이터 분석에 다시 빅데이터 분석이 추가되면서 인문사회 분야에서 학습의 필요성에 대한 논란과 습득의 부담감이 더해지고 있다.
그러나 사람들의 선택 여부와 상관없이 코딩은 물론 빅데이터 독해력(big data literacy)은 미래를 위해 반드시 갖춰야 할 도구라는 것을 인식할 필요가 있다. 인문사회계 출신들도 빅데이터 독해와 분석 능력을 갖추는 것이 경쟁에서 유리할 뿐만 아니라 이는 학계 연구자들에게도 분석의 지평을 넓히기 위해 습득해야 할 또 다른 분석 도구로서 인정되고 있다.
그런데 기존의 빅데이터 분석 설명서들은 그리 친절한 편은 아닌 것 같다. 컴퓨터에 익숙하지 않은 우리에게 기본을 생략한 설명은 컴퓨터와 소프트웨어 활용에서 더 큰 장벽을 느끼게 한다. 또한 인문사회과학적 관점에서 빅데이터 분석방법론을 설명하거나 사례를 응용한 연구서도 많지 않은 것 같다.
이 책은 이러한 고민에서 출발했다. 인문사회계 학생들에게 좀 더 편안한 빅데이터 분석 개념에의 접근과 분석 방법을 활용할 수 있도록 하고, 연구자들에게는 빅데이터와 인문사회과학을 연결해 연구에 활용할 수 있도록 방법론을 소개하려는 데 이 책의 목적이 있다. 그러므로 설명은 최대한 직관적으로 하고자 노력했으며, 가급적 인문사회과학과 연관되면서도 실생활에서 얻을 수 있는 자료들을 주로 사용해 이해를 돕고자 했다.
빅데이터는 이공계 전유물이 아니다. 빅데이터 분석은 인문사회과학자들에게도 장점이 되며, 충분히 이러한 장점을 접목할 수 있다. 인문학적 상상력이나 사회과학의 연구방법론을 도외시한 분석 결과물은 의미가 없거나 유용하지 않을 수 있다. 단순한 발견이나 미래예측으로 끝난다면 학문 발전에 큰 도움이 되지 않을 것이다. 또한 인과적 의미에서 해석이나 분석을 하지 못한다면 도출된 결과물은 개인이나 사회의 문제 해결에 중요한 정보를 제공하지 못할 것이다. 화려한 그래픽도 우리에게 시각적으로 즐거움 이상의 의미를 주지 못한다면 유용한 결과물은 아니다.
이 책에서 빅데이터 분석 도구로는 R을 사용했다. 파이선(Python)은 개발자에게 좀 더 친화적이지만 데이터 분석가에게는 R이 좀 더 사용하기에 편리하다. 다만 데이터 과학자가 되려 한다면 파이선과 R 모두 다룰 줄 아는 것이 바람직하다.
이 책의 1부에서는 본격적으로 R을 다루는 2~3장은 가급적 최대한 쉽게 설명하고자 했고, 복잡하거나 초보자에게 당장 필요하지 않은 것들은 제외했다. 만약 이 책 이후 빅데이터 분석에 깊은 관심이 생긴다면 그때 다른 전문서적을 참고하면 될 것이다.
2부에서는 수치로 표현되는 정형 데이터 분석 방법을 살펴봤다. 통계적 관점에서 이 방법들은 결코 세련된 방법이 아니다. 다만 빅데이터를 다루고 새로운 관계나 범주를 발견하는 방법이기 때문에 사회과학 연구의 출발점을 제공할 수 있다는 점에서 중요한 의미가 있으므로 소개한다.
3부에서는 텍스트 분석 방법을 살펴봤다. 텍스트 분석은 인문사회과학과 깊은 관련이 있지만 아쉽게도 현재로서는 발전이 매우 더딘 분야이다. 개발된 분석 기술이나 방법론에 대한 관심도 이공계 중심으로 진행되고 있다. 그래서 데이터 엔지니어들은 왜 텍스트 분석 분야에 인문사회과학 연구가 미진한지 궁금해한다. 본문에서 텍스트 분석의 토픽모형은 나름 인문사회과학적 분석 방법으로 시도되고 있으나 딥러닝 분야는 더 정확한 결과를 제공해 줄 수 있음에도 불구하고 우리의 도전과 발전이 더딘 상황이다. 저자를 포함해 인문사회과학 진영에서 적극적으로 개척해야 할 분야라고 생각한다.
저자가 데이터 엔지니어나 데이터 과학자가 아니기 때문에 발생할 수 있는 이 책의 부족한 부분은 전적으로 저자의 부족한 역량으로 돌리고자 한다. 책의 내용에 관한 모든 의견을 겸허하게 받아들여 향후 좀 더 발전된 연구서를 발간하기 위해 노력하고자 한다.
이 책이 나올 수 있도록 분석을 위한 R 코드 작성과 수정에서 많은 도움을 준 수원대 행정학과 제자인 조정용, 박준영, 박원우 학생 그리고 문장의 수정 및 내용의 타당성 등을 검토해 준 박사과정의 정선이님께 지면을 빌려 감사의 마음을 전한다. 그리고 오랫동안 기다려 준 윤성사 정재훈 사장님, 디자인과 교정을 맡아 애써준 분들에게도 진심으로 감사드린다. 마지막으로 사랑하는 아들 동주에게 아버지로서 미안함과 감사의 마음을 전한다.
2019년 5월
저 자

1부
1장 4차 산업혁명과 인문사회과학 15
1절. 자연과학과 인문사회과학 15
2절. 4차 산업혁명과 인공지능 기술 17
3절. 지능정보기술로 인한 파급 효과 23
1. 산업경제적 측면 23
2. 고용구조적 측면 25
3. 사회문화적 측면 27
4절. 4차 산업혁명과 인문사회과학 29
5절. 데이터 과학과 빅데이터 분석 32
1. 데이터 과학 32
2. 데이터 과학자 35
3. 빅데이터 분석 36
2장R 설치와 기초 문법 41
1절. R의 특징 41
2절. R과 RStudio 설치 45
1. R 설치 45
2. RStudio 설치 53
3. RStudio 설정 55
4. RStudio 실행 57
3절 데이터 불러오기와 저장하기 63
1. 함수와 객체 63
2. 작업공간 확인 64
3. 패키지 설치와 불러오기 65
4. 데이터 불러오기 67
5. 데이터 저장하기 69
6. 분석 결과물 저장하기 71
7. 스크립트 파일 가져오기＼저장하기와 그래픽 저장하기 71
3장 데이터 구조와 전처리 72
1절. R의 데이터 구조 72
2절. 데이터 프레임 편집 77
1. cbind( )와 rbind( ) 77
2. merge( ) 78
3. 결측값(NA) 80
4. subset( ) 80
5. colnames( ) 81
6. 인덱싱(indexing) 82
3절. apply 함수 83
1. apply 함수
2. lapply 함수 84
3. sapply 함수 85
4. tapply 함수 85
4절. dplyr 활용 86
1. filter 함수 87
2. select 함수 88
3. arrange 함수 89
4. mutate 함수 89
5. summarise 함수 90

2부
4장 기초 통계분석 95
1절. 자료 정제 95
1. 원자료 살펴보기 95
2. 자료 불러오기 96
3. 자료 변환과 탐색 98
4. 결측값 확인 및 처리 104
5. 이상값 탐색 및 제거 106
6. 회귀분석 109
5장 시각화 113
1절. 기본 산점도: plot( ) 함수 114
1. 데이터 내보내기와 불러오기 114
2. 산점도 115
2절. ggplot2 118
1. 필수 함수 - ggplot( ) 119
2. geom_그래프 계열 120
3. 기타 126
3절. 모자이크 함수 129
6장 군집분석 133
1절. 군집분석의 종류와 단계 134
1. 군집분석의 의의와 종류 134
2. 군집분석의 단계 135
2절. 분할적 군집분석: K 평균(K-means) 138
1. 개념 138
2. 사례: 폭력범죄 비율 140
3절. 계층적 군집 방법 149
1. 개념 149
2. 사례: 단백질 음식 소비 151
4절. 시장 세분화(Market Segments) 157
1. 전처리 158
2. 분석 166
7장 분류분석
1절. 의사결정나무 183
1. 개요 183
2. 사례 1(연속형 종속 변수): 온도 결정 184
3. 사례 2(범주형 종속 변수): 타이타닉 생존 결정 186
2절. 랜덤 포레스트 189
1. 개요 189
2. 사례 1(범주형 종속변수) : 신체 움직임 유형 190
3. 사례 2(연속형 종속변수) : 주택가격 192
4. 비교 사례: 타이타닉 호 194
3절. 로지스틱 회귀분석 196
1. 개요 196
2. 사례 1(이항 로지스틱) : 학내 취업 프로그램 198
3. 사례 2(다항 로지스틱) : 신체 움직임 유형 200
4. 비교 사례: 타이타닉 호 201
8장 연관분석 205
1절. 기본 개념 205
2절. 연관규칙 평가척도 206
1. 지지도 207
2. 신뢰도 207
3. 향상도 208
3절. 파일 형식 209
4절. 사례분석 1: 마켓 거래 품목 210
1. 자료 탐색 210
2. 연관분석 214
5절. 사례분석 2: 도서관 대출 219
1. 자료 탐색 219
2. 연관분석 224

3부
9장 텍스트 분석 : 기초 233
1절. 리스트 233
2절. 함수의 구조 236
1. 조건문과 반복문 236
2. 함수 237
3절. 텍스트 분석과 자연어 처리 238
1. 자연어 처리의 개념 239
2. 텍스트 데이터 전처리 241
3. 텍스트 분석 기법들 243
4절. 텍스트 전처리와 DTM 생성 244
1. 형태소 분석과 전처리 245
2. DTM 문서 생성 251
5절. 데이터 탐색 및 분석: 박근혜 vs 문재인 연설문 비교 253
1. 데이터 탐색 253
2. 워드 클라우드 255
3. 비교 분석 257
4. TF-IDF 261
5. 상관관계 262
10장 크롤링과 텍스트 분석 265
1절. 크롤링의 기본 개념 266
2절. 뉴스 기사 크롤링과 논쟁 비교 분석 267
3절. 영화 댓글 크롤링과 흥행 예측분석: <완벽한 타인> 275
4절. 뉴스 기사 댓글 크롤링과 연관 네트워크 분석 291
5절. 상품평 크롤링(1): 네이버 홈쇼핑 303
6절. 상품평 크롤링(2): 11번가 홈쇼핑 307
11장 토픽모형 312
1절. 잠재적 디리클레 할당 모형(LDA): 기술적 연구 312
1. 생성적 확률모형 312
2. 위계적 베이지안 모형 316
3. LDA 추정 319
4. LDA 분석: 4차 산업혁명과 정부의 역할(1) 322
2절. 구조 토픽모형(STM): 변수에 의한 설명적 연구 336
1. STM의 개념 336
2. STM 분석: 4차 산업혁명과 정부의 역할(2) 340
3. STM과 준실험설계 연구 358
12장 감성분석 361
1절. 개요 361
2절. 구글 클라우드 가입 364
3절. 뉴스 기사 감성분석: 소득 주도 성장 369
4절. 영화평 감성분석: <마약왕> 372
13장 딥 러닝 기법word2vec 383
1절. one-hot-encoding과 단어 임베딩 383
2절. word2vec 학습과 연산 387
1. Skip-Gram 모형 387
2. CBOW 모형 392
3. word2vec의 벡터 연산 394
3절. word2vec으로 문서 분류하기 396
4절. word2vec 분석 : 4차 산업혁명과 정부의 역할(3) 399
1. 연관 키워드 추출 399
2. 연관 네트워크 407
3. 문서 분류 409

참고 문헌 417
찾아보기 421

<저자소개>
이 석 민
서울대학교 인류학과와 정치학과에서 학사, 석사, 박사학위를 취득했으며, 서울대학교 행정대학원에서 박사후 연구원 과정을 거쳐 현재 수원대학교 법행정학부 행정학과와 공공정책대학원 정책학과에 재직 중이다. 정책분석평가, 사회적경제, 노인복지, 과학기술정책이 주요 연구 분야이며 실험 및 준실험연구, 시스템 다이내믹스, 공공빅데이터분석 등 데이터 분석 방법에 관심이 있다. 현재 인공지능과 시스템 다이내믹스(시뮬레이션)를 결합한 의사결정 방법 등 새로운 정책분석방법론을 연구하고 있다. 「R을 활용한 구조방정식모형 분석」과 「R을 활용한 패널데이터 분석」을 출간할 예정이다.