본문 바로가기

그냥, 책

데이터관련 도서1) 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력

반응형

 

 데이터 관련 도서를 읽으려고 총 5권을 준비했다.

<데이터 문해력>

<빅데이터는 어떻게 마케팅의 무기가 되는가>

<빅데이터와 인공지능>

<빅데이터, 사람을 읽다> 

추가로, <빅데이터로 세상을 지배하는 사람들> 또한 읽을 예정이다. 

 당장 필요하고, 원하는 지식을 한 번에 얻으려면 비슷한 책을 4~5권 정도 읽으면 내용이 비슷해서 읽는 속도도 빨라지고 배경지식이 전문지식으로 쌓인다고 하니... 처음으로 도전해본다. 그런데 꽤 이런 뭉터기 독서 방식이 꽤 맘에 든다. 그래서 앞으로는 소설이나 철학/인문/에세이 같은 책은 작가별로 뭉터기 독서를 해보려 한다. 각설하고... 각 장별로 내용 정리를 해보겠다...

 

# 1장 앞으로 필요한건 데이터 문해력: 분석보다 활용

기계가 하는 일과 사람이 하는 일의 구분을 명확하게 해야한다. 

※ 데이터 활용에 필요한 3가지 상자

생각하기(input) : 분석 전에 문제 및 목적을 정의하고 가설을 구축

→ 작업하기 : 분석을 위한 기술과 지식

→ 생각하기(output) : 분석 결과에 대한 해석 및 스토리 구축

작업은 기계가 하는 일이지만, 생각해서 목적과 정의를 구축하고 분석 결과에 대한 해석 및 스토리를 구축하는 것은 사람이 해야하는 일이다.

※ '목적 사고력'이란?

데이터 작업 전에 애당초 무슨 말을 하고 싶은지(무엇이 알고 싶은지)를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근방식이다. 우리가 언어를 배울 때, 단어와 문법만으로는 절대 소통할 수 없다. 소통을 하기 위한 목적이 필요하다. 데이터를 이용하여 머신러닝, 딥러닝 등 무언가를 구현하고 실현하기 위해서는 '목적'이 필요한 것이다.

<자신의 목적과 문제를 올바른 데이터로 적절히 활용하여 가치 있는 결과물을 낼 수 있도록 하는 사고방식과 기술>

  1. Level 3. 목적 중심 : 나 자신이 알고 싶은 것(목적)에 따라 데이터를 수집하고 분석해서 그 결과를 검증하고 결론으로 연결하는것
  2. Level 2. 데이터 중심 : 수집한 데이터를 직접 그래프 등으로 가공하는 단계
  3. Level 1. 그래프 중심

<데이터 활용 프로세스>

(겉으로 드러난 현상) >> 목적 및 문제를 정의 >> 지표를 결정 >> 현재 상태를 파악 >> 평가 >> 요인을 분석 >> 해결 방안을 모색

 

# 2장 올바른 데이터로 올바른 문제를 풀고 있는가?

※ 데이터 활용에 실패는 이유

원인1) 풀고자 하는 문제가 명확하지 않다.

원인2) 정의한 문제와 사용하는 데이터가 일치하지 않는다.

해결하기 위해서? "데이터에서 무엇을 할 수 있을지 생각한다" —> "데이터를 가공한다"

※ 보다 잘 해결하기 위해서?

원인1) 절대적인 정답이 존재하지 않는 한, 나의 결론으로 이끌어 내는 이야기를 만드는 능력을 만들어야한다. 즉, '어쩌다' 발견된 사항들을 열거하는 것이 아닌 정확한 목적 및 문제를 정의하는 것이 필요하다.

   #목적과 문제를 정의할 때 확인해야 할 포인트

  1. 사용된 언어가 구체적이고 명확한가?
  2. 무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 '문제'가 발생한 것인지, 이 점을 명확하게 하라. 어쩌다 발견된 사소한 발견은 어떠한 논리성도 객관성도 없다. 나의 목적과 질문이 구체적이라면 그 어디에도 정답은 없다.
  3. '문제', '원인', '해결방안'을 구분하고 있는가?
    • '문제'가 무엇인가
    • 그 문제를 일으키는 '원인'은 무엇인가
    • 그 원인에 대한 '해결 방안'은 무엇인가

원인2) 목적 및 문제를 정의했다면 다음은 지표를 결정해야한다. 상승과 불안정함, 부족과 감소 이런 단어의 차이를 알아야한다. 지표를 정할 때, 짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야 하고, 지표를 무조건 하나만 정해야 하는 것은 아니다.

 

결론을 도출하는 프로세스와 프레젠테이션하는 순서는 약간 다르다.

# 결론을 도출하는 프로세스

(1) 평가 지표 및 기준을 결정 (2) 적합한 데이터 및 그래프를 선택 (3) 결론

# 프레젠테이션 순서

(3) 결론 (1) 평가 지표 및 기준을 결정 (2) 적합한 데이터 및 그래프를 선택

 

# 3장 '이것이 문제다' 데이터로 말하는 방법

# 현상 파악 및 평가력: 문제를 표현하는 힘

데이터를 활용해서 결과물을 만들 대, 자기 생각과 주관을 전하면 안된다. 더욱 엄밀하고 객관적으로, 논리적인 주장을 전달해서 상대방이 이해할 수 있도록 해야 한다.

비교: 비교를 통해 원하는 결론을 만들어라.

  • 결론으로 이어지는 결과가 나올 것인가?
  • 비교를 통해 '차이'를 찾을 수 있는가?

'결과'와 '결론'은 다르다

결과는 팩트 체크이고, 결론은 그 팩트를 통해 얻어난 나의 의견이다.

비교의 기술

  • 데이터의 '편차'를 이용하여 비교한다(전제조건: 나의 목적과 질문이 확실해야한다)

데이터 평가 기준 대표적인 지표

값의 크기 평균값, 합계
추이 그래프, 막대 그래프, 변화율
등락 폭 표준편차, 도수 분포도
비율 분수, 퍼센트

*만족도나 이해도 등의 값(데이터)은 애초부터 그 사람의 주관이나 기대에 기반하여 나온 상대적인 값에 불과하다.

 

# 4장 결과가 나왔다고 끝난 것은 아니다.

# 원인파악력: 행동으로 이어지는 힘

문제를 일으키는 원인을 찾아야 해결방안을 찾을 수 있다.

"현황 파악 완료, 분석 및 비교를 통해 문제점도 도출"

→ "그 결과에 이르게 된 근거 및 원인도 제시되었는가"

→ "원인과 결과의 '연결성'에 주목하자!"

 

※원인 후보를 이끌어 내는 방법과 지표를 특정하는 방식

(1)원인 후보를 열거 → (2)지표를 결정 → (3)관련성을 확인

(1) 무언가에 전문지식이 많다면 원인이 단 1가지만 나오지 않을 것이고 2개 이상의 원인을 찾을 수 있다. 하지만 원인이 많이 나열된다고 해서 좋은 것도 아니다. 주관적인 의견을 배제하고 객관적으로 찾을 수 있는 원인을 찾는 것이 관건이다.

(2) 무작정 원인과 관련된 직접적인 지표 데이터를 결정하는 것보다 현상 원인을 파악한 뒤, 그 것에 따른 지표 데이터를 고르는 것이 중요하다. 하지만 그 부분이 어려울 경우, 그 원인에 대한 다양한 관점으로 지표 데이터를 고르고 분석해 봐야한다.

(3) 관련성을 확인할 때, 2단계로 나뉘어 진다.

1단계) 시각적으로 관련성을 완성한다. 산포도를 보면 비례하여 증가하는지, 그룹화되어 있는지, '벗어난 값(전체 데이터 집합에서 크게 떨어져 있거나 벗어난 데이터의 존재)'의 이유를 찾아낼 수 있다.

2단계) 통계 지표를 확인한다 상관계수

상관분석 : 가로축과 세로축이 선형 관계를 보일 경우, 그 관련 정도를 나타내는 통계 방식

  • -1 ~ -0.7 : 강한 부적 상관관계(부적: 반비례)
  • -0.7 ~ -0.5 : 부적 상관관계
  • -0.5 ~ +0.7 : 정적 상관관계(정적:비례)
  • 0.5 ~ +0.7 : 정적 상관관계
  • 0.7 ~ +1 : 강한 정적 상관관계

But! 상관관계는 인과관계를 나타내는 것이 아니다. 원인은 한 가지가 아니라, 여럿이거나 복잡할 수도 있는데, 그럴수록 다양한 방면에서 생각해봐야할 필요성이 있다. 상관관계(선형 그래프)에 의존하면 안된다.

 

# 5장 기법에 집착하지 마라

# 전체 구성력 : 스토리(논리)를 만드는 힘

문제 해결 프로세스에서 누구나 하는 실수?

"곧바로 '해결방안'에 무턱대고 달려드는 것"

데이터를 기반으로 참신한 해결방안을 찾았다고 생각하지만, 결국 데이터를 가져와서 의미없는 근거만 내세울 뿐 '방법맨(방법만 찾는 작업자)'에 불과하다.

방법맨이 되어버리는 구조?

즉, 이렇게 하면 안된다!

  • 프로세스를 잊어버린다
    • 어떤 원인으로 인해 어떤 프로세스로 해결해나가서 그 원인과 근거를 바탕을 해결방안에 대한 아이디어를 도출해야 한다.
    • 막연하게 기발하고 신박한 아이디어를 먼저 내게 되면 내 아이디어에 휘둘려 데이터를 읽을 수 없게 된다
    • '무엇을 해결, 실현하고 하는가(목적 및 문제)' / '무엇이 결정적 요인인가(원인)' —> '무엇을 해야하는가(해결방안) : 이 프로세스로 생각해야함
  • 평가 기준이 애매하다

참신한 아이디어가 좋지 않다는 것은 아니다! 전체 로직을 생각하지 않으면 비약하고 관련성 부족한 결과를 얻게 된다. 그러므로 참신한 아이디어는 전체적인 로직을 생각한 뒤, 도출해내는 것이 좋다.

'왜(원인)' 그런지 끈질기게 생각하라

  • 문제인지
  • 원인인지
  • 해결방안인지

프로세스를 만들어 원인 분석을 한 뒤 해결방안을 찾는 방식은 토론을 진행하거나 기획하는 사람에게도 필요한 능력이며, 데이터를 쓰지 않아도 되는 문제를 다룰 때도 필요할 수 있다. 지식이나 방법론을 열심히 암기해봤자 데이터(분석)에는 소용없다고 말한 근본적인 원인이 바로 이것이다.

# 6장 '결론은 이것이다' 정보를 요약하라

# 정보 집약력: 정보를 수집하고 결론을 이끌어내는 힘

결과와 결론은 다르다

  • 결과: 계산과 분석을 해서 나온 결과물
  • 결론: 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것

→ 데이터가 담긴 그래프를 보고 팩트만 이야기하는 것은 결과, 이 결과를 통해 "하고 싶었던 것"과 "알고 싶었던 것"이 무엇인지 표현해야한다.

→ 결과와 결론에 이르는 과정은 본질적으로 같다. 결론이란 결과를 기반으로 도출하는 것이기 때문이다. 하지만 표현 방식은 다르다. 그리고 그 작은 차이가 상대방에게 전달되는 방식이나 이해도에 큰 영향을 미친다. 이 차이를 이해하는 것 또한 데이터 문해력에 있어서 중요한 요소이다.

※ 결론을 낼 때 주의할 점?

  • 데이터로 설명 가능한 범위인가?
    • ex) 한국인은 밥먹는 속도가 빠르다 —> 한국인은 성미가 급하다
    • 위와 같이 결론낼 수 없다
  • 인지편향(선입견)
    • 데이터는 직접 자신이 보거나 경험한 것 이외의 세상을 간접적으로 보여주는 편리한 도구지만, 데이터가 나타내는 것이 세상의 전부라 할 수는 없다
  • 정답은 한가지가 아니다
    • 어떠한 결론이 적절한지는 내가 판단하는 것
    • '스스로 정답을 만들어내고 이를 논한다'라는 자세를 흔들림없이 유지하는 것 또한 데이터 문해력의 중요한 요소

 

# 7장 '데이터로 문제를 해결할 수 있다'는 착각

# 시야 확대력: 데이터로부터 시야를 넓히는 힘

분석 범위와 이용해야 할 데이터를 적절히 논리적으로 검토한 프로세스

  • 어떤 범위, 어느 시점의 정보(데이터)가 필요한가?
  • 어떻게 처리, 가공해야 할 것인가?

'데이터 ⇒ 가설(데이터에 기반한 가설 수립)'이 아니라, '가설⇒데이터'

이 책에서 말하는 데이터 문해력을 위한 핵심 프로세스라고 볼 수 있다. 

최선의 접근방식? '논리적 사고 회로'

논리적사고? 문제를 구조화하고 정리하면서 생각하는 것

  • 논리적사고를 기르기 위해 여러차례 시행착오를 거치면서 경험치를 쌓고 자신의 상상력을 키워나가야 함

<효율적인 시행착오>

  1. 짝짓기
    • 대응되는 콘셉트를 지정해놓고 구조화하여 분류한다.
    ex) 회사 내부 - 회사 외부, 양 - 질, 행복 - 분노
  2. 자기 부정
    • 자신이 방금 떠올린 아이디어를 일부러 부정하는 것
    • 이를 부정하는 행동을 통해 다른 아이디어를 강제로 도출
    • 이런 사고과정을 반복하면 편향된 생각을 고쳐나가면서 가능성을 늘려나갈 수 있음
    ex) 아이디어1 ⇒ 자기부정1 ⇒ 아이디어2 ⇒ 자기부정2 ⇒ 아이디어3

데이터 문해력이란?

데이터에서 무언가를 읽어내는 능력이 아니라 스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는 능력

 

# 8장 개인과 조직의 데이터 활용 능력을 높이는 방법

# 실행력: 문해력을 실현하는 힘

데이터를 활용할 환경

  • 이해와 동기부여
  • 시간을 확보할 수 있는 환경

잘 나가는 개인과 조직은 무엇이 다른가?

1. 파트장 등의 리더십, 책무로 확립되다

  • 동기부여를 갖고 있지 않다면 데이터를 이용하여 평가할 의무를 잃는다
  • 제도나 평가에 '데이터 활용'을 도입하고 업무 시스템으로 '반드시 해야 할 일'로 명시하고 있는 조직 혹은 개인이 되어야한다 ⇒ '앞으로 나아가고'은 개인 혹은 조직

2. 목적이 명확하다

데이터를 사용하는 목적은 무엇인가? 데이터를 분석해서 실현하고 싶은 것은 무엇인가, 어떤 행동으로 이어지게 하고 싶은가? 앞으로 나아가는 조직은 그런 명확하고 구체적인 목표와 목적을 제시하고 현장에서 공유하고 있다.

3. 생각과 작업의 차이와 가치를 이해한다

생각의 중요성과 이를 위해 필요한 환경을 이해한다면, 충분한 시간과 환경의 필요성을 검토하고 준비할 수 있다. 직장이라면 평소의 분위기에서 벗어날 수 있도록 일정 시간 격리된 장소를 이용해 생각할 수 있는 시간을 주고, 토론 장소를 따로 마련하는 것 등이 이에 해당한다.

4. 결과물을 적절하게 평가할 수 있는 사람이 있다

상급자는 결과물에 대해 어느 정도 평가를 하고 피드백을 줄 수 있는 능력을 갖추어야 한다. 이런 사람이 없을 경우 외부에 의뢰하는 것 또한 하나의 방법이다.

 

결론?

데이터를 활용한다란, 잔재주로 가능한 것이 아니다. 올바른 목적을 설정하고 그 목적에 따라 데이터를 활용해서, 적절히 제시한 결과를 결론으로까지 끌어낸다는 본질적인 흐름을 중시하고, 과정 하나하나 신중히 밟아가야 한다. 그것이 바로 가치 있는 성과를 창출하기 위한 필수 조건이다.

 

 

반응형