본문 바로가기
책 추천

[책 추천] 감으로만 일하던 김팀장은 어떻게 데이터 좀 아는 팀장이 되었나

by 토마토씨 2022. 3. 24.

0. 개요

 

밀리의 서재에서 본 데이터 분석 입문서.

예측과 추론의 차이/ 인과관계와 상관관계 차이/ 선형, 로지스틱 회귀 등을

이해하기 쉽게 풀어서 설명한다 ('황보 교수' 라는 캐릭터를 내세운 만담형 서술. 개인적으로 유치하다고 생각하는 서술인데, 딱딱하지 않은 분위기에서 무언가를 설명하기 좋은 포맷인 듯 하다. 고통 받는 황보 교수).

 

데이터 분석에서 자주 쓰이는 기본 개념을 아는 목적으로 활용하면 좋을 듯 하다. 

특히 각 분석 방법들의 관계 (예를 들어, 선형 회귀식으로 원인과 결과를 도출했다면, 결과 개선에 활용하기 위해서는 의사결정나무를 통해 액션플랜, 기준을 마련하는 과정) 를 이해하기 쉽게 서술해두었다는 특징이 있다.

 

(왜 AI가 자동으로 분석 딱딱 안해줘서 내가 이 공부를..) 요즘은 AI가 코테도 잘 푼다하더라,,

 

 

 

양심 실종된 휴먼 이즈 미

 

1. 책 정보

 

책의 가격, 출판사 등은 아래 URL 로 대신한다.

밀리의 서재에도 서비스 되고 있다.

이 책을 자주 펼칠 것 같아서 종이책으로 소장하려고 알라딘 중고서점을 열심히 뒤졌는데,

의외로 종이책 중고본은 찾을 수 없었고, 온라인 중고 서점도 가격이 크게 차이나는 것은 아니었다 (정가 17000원대, 중고책 14000원+배송비 2700원)

 

 

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=276608793

 

감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나

빅데이터 분야 세계 Top 100에 꼽히는 전문가들이 쓴 데이터 분석 입문서가 나왔다. 국내 최초로 실제 기업의 데이터 분석 에피소드와 멘토링을 중심으로 한 내용으로, 데이터 리터러시를 훈련시

www.aladin.co.kr

 

 

 

 

2. 새롭게 알게 된 내용들

 

  (1) 예측과 추론의 차이

       * 예측: 특정 결과값을 도출하기 위한 과정. 

       * 추론: 원인과 결과 사이의 관계를 분석하는 것. 다양한 변수의 변화에 따른 y 변화를 이해하는데 관심. 

 

  (2) 수치형과 범주형 결과 분석법 차이 (인과관계 분석)

       * 수치형: t-test, 분산분석, 선형 회귀분석.

                   (t-test, 분산분석)   선형 회귀분석.

       * 범주형: 로지스틱 회귀(logistic regression), 판별 분석(discriminant analysis), 서포트 벡터 머신(support vector machine), 

                  의사결정나무(decision tree), k-최근접이웃(k-nearest neighbors).

 

         cf. 의사결정 나무는 회귀, 분류 둘 다 가능. 

 

  (3) 유클리드 거리, 피어슨 상관 거리

       * 유클리드 거리: 결과값은 0과 같거나 큰 값. 값이 작을 수록 비슷한 그룹이라고 판단 가능. 변수마다 단위가 다를 수 있기에 데이터 표준화 작업 필요. 절대적인 값을 비교 할 수 있다.

       * 피어슨 상관거리: 1에서 -1 사이의 값. 1에 가까울 수록 비슷한 그룹이라고 판단. 패턴을 비교할 수 있다.