<머리말>
학문 간 융합과 통섭에 관한 논의는 오랜 역사를 지니고 있으나, 그 주도권은 대체로 이공계 영역에서 행사되어 왔다. 문·이과 통합이든 학제간 연구든, 인문사회과학은 이공계 발전을 위한 보조적 역할로 규정되는 경향이 있었다. 이러한 구도 속에서 인문사회과학은 교양 학문 정도로 인식되어 왔으며, '문송’이라는 표현은 이 분야 연구자와 학생들이 직면한 현실을 보여 준다.
필자는 이러한 불균형에 대한 문제의식을 품어 왔다. 이공계가 인문사회과학을 도구로 활용하는 방식이 아니라, 인문사회과학의 관점에서 이공계적 방법론을 융합하는 가능성을 모색하고자 했다. 이러한 관심에서 파이썬, 웹프로그래밍, 데이터베이스, 머신러닝과 딥러닝 등 인공지능 분야를 학습하기 시작했으나, 알고리즘 사고에 익숙하지 않은 인문사회과학 연구자에게 그 과정은 쉽지 않았다. 2022년 11월 ChatGPT의 등장은 필자의 학습 경험에 전환점이 되었다.
대규모 언어 모델(Large Language Model: LLM)의 출현은 인문사회과학 연구자에게 새로운 도구적 가능성을 제공한다. 이공계 전공자가 인문사회적 상상력과 맥락적 해석 능력에서 한계를 보이는 것처럼, 인문사회 전공자 역시 수학적·기술적 사고에서 어려움을 겪어 왔다. LLM을 적절히 활용할 수 있다면, 인문사회과학 연구자는 자신의 강점-비판적 사고, 맥락적 해석, 인간과 사회에 대한 이해-을 기반으로 연구 생산성을 극적으로 높일 수 있다. 인문사회계와 이공계 학생들을 동시에 가르치며 관찰한 결과도 이를 뒷받침한다. 인문사회계 학생들은 AI라는 도구를 갖추었을 때 놀라운 문제해결 역량을 보여 주었다.
이 책은 학부생을 포함해 전문 연구자를 주된 독자로 상정한다. 연구자와 교육자가 먼저 변화해야 학생들에게 새로운 방법론을 전수할 수 있기 때문이다. 인문사회과학 연구자들이 LLM과 AI 에이전트의 원리를 이해하고, 이를 연구 도구로 비판적으로 활용하며, 그 방법론적 정당성을 학술적으로 확보할 수 있도록 안내하는 것이 이 책의 목적이다.
다만 AI 활용에 대한 낙관적 전망만을 제시하는 것은 적절하지 않다. AI의 생산성은 연구자에게 유용한 도구가 되지만, 동시에 고려해야 할 문제가 있다. AI에 대한 과도한 의존은 인간의 사고력을 약화시킬 가능성이 있다. AI로 결과물을 생성하는 행위 자체가 문제라기보다, 그 과정에서 인간이 사고 능력을 잃게 되는 것이 문제이다.
이 지점에서 대학 교육의 역할에 대한 성찰이 필요하다. AI의 등장이 대학의 존재 가치를 위협할 것이라는 주장이 있었다. 필자는 다른 관점을 제시한다. AI 시대이기에 대학의 기능은 오히려 중요해져야 한다. 대학 교육의 일부는 AI 사용을 배제한 채 원고지에 연필로 글을 쓰는 것과 같은 사고력 훈련과 지식의 주입식 교육으로 회귀할 필요가 있다. "Back to the Basics"이 요구된다. AI를 제대로 활용하기 위해서는 인간의 사고력과 지식이 전제되어야 하기 때문이다. 유능한 교수가 역량 있는 조교를 충분히 활용할 수 있듯이, 유능한 연구자와 학생이 AI를 제대로 활용할 수 있다. 그렇지 못할 경우, 인간은 AI에 종속된다. 따라서 대학은 기초 원리 체득 및 지식 습득 교육과 AI에 과업을 위임하고 그 결과물을 감독·승인하는 교육을 동시에 수행해야 한다. AI에게 대체 당하는 인간도 생길 것이고 이러한 AI를 더욱 강력한 무기로 사용하는 인간도 생기는 양극화가 생길 것이다. 더 뛰어난 학문적 역량을 가진 연구자가 AI를 지백하게 될 것이다. 어떤 의미에서는 AI와 인간의 지적인 대결이 시작된 셈이다. 참고로 필자는 거칠게라도 직접 글을 작성한 후에 내용과 논리, 문체 등의 검토와 마무리를 AI에게 맞기고 최종 결정을 한다. 이는 LLM 시대에 연구자로서의 생명력을 잃지 않기 위해서이다. 학생들이 위협받는 것 이상으로 LLM을 어떻게 사용하느냐에 따라 지식 연구자의 지적 역량이 퇴보할 수도 더 증강될 수도 있다.
이 책은 문서 수집 및 요약과 정리, 원고 점검 과정에서 LLM 도구를 활용했음을 밝히며 내용과 관련한 모든 책임은 필자에게 있음을 밝힌다. 그리고 실습 파일은 깃허브에 있으며 윈도우, 맥, 리눅스 모든 운영 체제에서 실습이 가능하다. 마지막으로 이 책의 출판을 응원해 주시고 수고해 주신 정재훈 대표님과 임직원에게 진심으로 감사의 마음을 전한다.
2025년 12월
이석민
<차례>
제1장 언어 모델의 작동 원리
제1절 확률적 언어 모델링의 기초
제2절 Transformer와 Attention 메커니즘
제3절 사전학습과 미세조정 패러다임
제4절 방법론적 함의
제2장 AI 에이전트의 구조와 추론
제1절 에이전트의 개념적 기초
제2절 추론 강화 모델
제3절 도구 사용과 외부 시스템 연동
제4절 방법론적 함의
제3장 LLM 모델 지형과 선택 기준
제1절 상용 모델 계열
제2절 오픈소스/오픈웨이트 생태계
제3절 한국어 모델 현황
제4절 로컬 배포와 추론 최적화
제5절 연구 목적에 따른 모델 선택
제6절 방법론적 함의
제4장 추론 설계와 프롬프트 엔지니어링
제1절 프롬프트 엔지니어링의 개념과 중요성
제2절 기본 프롬프팅 기법
제3절 Chain-of-Thought 추론 기법
제4절 정성적 연구를 위한 프롬프트 엔지니어링
제5절 추론 모델 시대의 프롬프트 전략
제6절 방법론적 함의와 연구 윤리
제5장 API 활용과 연구 파이프라인 구축
제1절 API 기초와 파라미터 이해
제2절 Python 기반 자동화
제3절 로컬 모델 배포
제4절 실습: 대규모 텍스트 처리 파이프라인
제5절 방법론적 함의
제6장 텍스트 분석과 질적 코딩
제1절 대규모 텍스트 분류
제2절 질적 코딩의 자동화와 증강
제3절 담화분석과 프레임 분석
제4절 신뢰도 확보와 품질 관리
제5절 실습: 복합 텍스트 분석 프로젝트
제6절 방법론적 함의
제7장 설문 연구와 시뮬레이션
제1절 설문 연구에서의 LLM 활용 개관
제2절 설문 문항 개발과 번역
제3절 척도 개발 과정의 증강
제4절 합성 데이터 생성과 실리콘 샘플링
제5절 합성 데이터의 타당성과 한계
제6절 방법론적 함의
제8장 문헌연구와 체계적 리뷰
제1절 체계적 문헌검토의 전통과 LLM의 개입
제2절 문헌 검색과 스크리닝 자동화
제3절 문헌 요약과 정보 추출
제4절 연구 동향 분석과 지식 맵핑
제5절 환각 탐지와 사실 검증
제6절 실습: 체계적 문헌검토 파이프라인 구축
제7절 방법론적 함의와 보고 기준
제9장 LLM을 연구대상으로
제1절 Homo Silicus: LLM을 인간 행동 시뮬레이터로
제2절 사회심리학 실험의 시뮬레이션
제3절 집단 행동과 사회적 역학 시뮬레이션
제4절 LLM의 사회적 편향 측정
제5절 실습: LLM 기반 실험 연구의 종합
제6절 방법론적 함의와 비판적 성찰
제7절 결론: 인간 연구의 패러다임 전환
제10장 RAG와 지식 통합
제1절 검색 증강 생성의 원리
제2절 벡터 데이터베이스와 임베딩
제3절 청킹 전략과 검색 최적화
제4절 연구용 RAG 시스템 설계
제5절 실습: 학술 문헌 RAG 구축
제6절 방법론적 함의와 품질 평가
제11장 멀티에이전트 시스템
제1절 단일 에이전트에서 다중 에이전트로
제2절 멀티에이전트 협업 아키텍처
제3절 주요 프레임워크 비교 분석
제4절 연구 보조 에이전트 설계
제5절 Human-in-the-Loop 설계
제6절 실습: 연구 보조 에이전트 구축
제7절 방법론적 함의
제12장 멀티모달 연구 데이터
제1절 멀티모달 대규모 언어 모델의 원리와 발전
제2절 시각 자료 분석: 이미지 기반 연구
제3절 고문헌과 역사 자료의 디지털화
제4절 음성과 영상 자료의 분석
제5절 멀티모달 분석의 통합적 접근
제6절 실습: 인문사회과학 멀티모달 연구 프로젝트
제7절 방법론적 함의와 타당성 검증
제13장 신뢰성, 타당성, 재현가능성
제1절 LLM 출력의 실무적 검증
제2절 코딩 신뢰도 확보
제3절 재현가능성의 기술적 확보
제4절 실험 추적과 버전 관리 도구
제5절 방법론적 함의
제14장 연구윤리와 학술 규범
제1절 데이터 프라이버시와 보안
제2절 저작권과 학술 윤리
제3절 학술 출판에서의 AI 활용 보고
제4절 IRB와 연구윤리 심의
제5절 편향의 인식과 완화
제6절 방법론적 함의: 윤리적 연구를 위한 통합 프레임워크
제15장 분야별 적용 사례
제1절 사회학: 질적 연구의 증강과 전환
제2절 행정학·정책학: 정책 담론의 계산적 분석
제3절 역사학: 디지털 인문학의 새로운 지평
제4절 문학연구: 스타일 분석과 텍스트 생성
제5절 커뮤니케이션학: 미디어 프레이밍과 허위정보
제6절 한국어 연구와 지역 연구
제7절 각 분야의 방법론적 쟁점과 수용 전략
제16장 방법론적 전망과 지속 학습
제1절 기술 발전 방향
제2절 Human-AI 협업 연구 설계
제3절 인식론적 성찰: LLM의 본질과 한계
제4절 방법론적 함의: 증강된 연구자로의 성장
<저자 소개>
이석민
서울대학교에서 인류학(학부), 의회정치(석사), 과학기술정책(박사)을 수학했으며, 포닥 과정에서 통계학과 계량경제학을 연구했다. 인류학적 관찰에서 시작해 정치학과 정책학의 이론적 토대를 거쳐, 계량경제학과 통계학의 방법론적 엄밀성을 습득한 후, 최근에는 딥러닝과 생성형 AI를 정책 현장에 적용하는 연구를 수행하고 있다. 수원대학교 행정학과에서 빅데이터분석에 입문했으며, 현재 한신대학교 공공인재빅데이터융합학부에서 AI 기반 정책분석과 딥러닝 응용 연구를 진행하고 있다. 『AI를 활용한 시니어 정신건강 진단 앱』을 개발하고 특허출원했다. 저서로는 『R과 STATA를 활용한 정책평가방법론』, 『빅데이터분석방법론』, 『구조방정식: 준실험설계접근』 등이 있으며, 행정학 학술지와 정보처리학회지 등에 논문을 게재했다. 웹프로그래밍, 데이터베이스, MLOps, 딥러닝 자연어처리 및 영상처리, AI 에이전트, 정책분석평가, 분석기획론 등 인문사회과학과 AI·Software 기술을 융합하는 교육을 실천하고 있다.