0. 개요
밀리의 서재에서 본 데이터 분석 입문서.
예측과 추론의 차이/ 인과관계와 상관관계 차이/ 선형, 로지스틱 회귀 등을
이해하기 쉽게 풀어서 설명한다 ('황보 교수' 라는 캐릭터를 내세운 만담형 서술. 개인적으로 유치하다고 생각하는 서술인데, 딱딱하지 않은 분위기에서 무언가를 설명하기 좋은 포맷인 듯 하다. 고통 받는 황보 교수).
데이터 분석에서 자주 쓰이는 기본 개념을 아는 목적으로 활용하면 좋을 듯 하다.
특히 각 분석 방법들의 관계 (예를 들어, 선형 회귀식으로 원인과 결과를 도출했다면, 결과 개선에 활용하기 위해서는 의사결정나무를 통해 액션플랜, 기준을 마련하는 과정) 를 이해하기 쉽게 서술해두었다는 특징이 있다.
(왜 AI가 자동으로 분석 딱딱 안해줘서 내가 이 공부를..) 요즘은 AI가 코테도 잘 푼다하더라,,
1. 책 정보
책의 가격, 출판사 등은 아래 URL 로 대신한다.
밀리의 서재에도 서비스 되고 있다.
이 책을 자주 펼칠 것 같아서 종이책으로 소장하려고 알라딘 중고서점을 열심히 뒤졌는데,
의외로 종이책 중고본은 찾을 수 없었고, 온라인 중고 서점도 가격이 크게 차이나는 것은 아니었다 (정가 17000원대, 중고책 14000원+배송비 2700원)
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=276608793
감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나
빅데이터 분야 세계 Top 100에 꼽히는 전문가들이 쓴 데이터 분석 입문서가 나왔다. 국내 최초로 실제 기업의 데이터 분석 에피소드와 멘토링을 중심으로 한 내용으로, 데이터 리터러시를 훈련시
www.aladin.co.kr
2. 새롭게 알게 된 내용들
(1) 예측과 추론의 차이
* 예측: 특정 결과값을 도출하기 위한 과정.
* 추론: 원인과 결과 사이의 관계를 분석하는 것. 다양한 변수의 변화에 따른 y 변화를 이해하는데 관심.
(2) 수치형과 범주형 결과 분석법 차이 (인과관계 분석)
* 수치형: t-test, 분산분석, 선형 회귀분석.
(t-test, 분산분석) ⊂ 선형 회귀분석.
* 범주형: 로지스틱 회귀(logistic regression), 판별 분석(discriminant analysis), 서포트 벡터 머신(support vector machine),
의사결정나무(decision tree), k-최근접이웃(k-nearest neighbors).
cf. 의사결정 나무는 회귀, 분류 둘 다 가능.
(3) 유클리드 거리, 피어슨 상관 거리
* 유클리드 거리: 결과값은 0과 같거나 큰 값. 값이 작을 수록 비슷한 그룹이라고 판단 가능. 변수마다 단위가 다를 수 있기에 데이터 표준화 작업 필요. 절대적인 값을 비교 할 수 있다.
* 피어슨 상관거리: 1에서 -1 사이의 값. 1에 가까울 수록 비슷한 그룹이라고 판단. 패턴을 비교할 수 있다.
'책 추천' 카테고리의 다른 글
[책 추천] '부'를 이야기하는 책들 (2부) (킵 고잉 KEEP GOING) (2) | 2022.04.10 |
---|---|
[책 추천] '부'를 이야기하는 책들 (1부) (0) | 2022.03.21 |