데이터마이닝 오류 범하지 않는 법

데이터 마이닝은 더 나은 결정을 위해 과거에서 학습하는 방법이다

피해야할 것으로는 1. 사실이 아닌 것을 학습하는 경우 2. 사실이지만 유용하지 않는 것을 학습하는 경우

이 중에서 1번이 더 좋지 않다

사실이 아닌 것을 학습하는 경우에는

파악된 패턴이 실제 존재하지 않는 규칙을 표현하지 않을 수 있다.
데이터 집합이 모집단을 올바로 표현하지 않는다
데이터 상세화 수준이 잘못되었다. 공휴일 데이터를 반영하지 않는 경우 등
1. 사실이지만 유용하지 않는 것을 학습하는 경우
  1. 이미 알려진 것을 학습하는 경우 - 은퇴자에게 은퇴적금에 대해 홍보하는 경우
  2. 사용될 수 없는 것을 학습하는 경우

데이터집합이 올바른 모집단을 반영하지 않을 수 있다.

데이터 집합은 모집단을 반영해야 하지만 그렇지 않을 경우 편향적이다라고 한다

데이터마이닝 스타일

top- down 스타일: inght에서 시작한다.

1번

botton -up 스타일: 데이터를 통해서 패턴을 찾아 insight를 찾는것

2,3번

세부적으로 설명해본다

가설검정: 데이터 분석을 통해 타당성이 검증될 수 있는 제시된 설명

가장 기본적인 실험 설계는 두 집단을 생성하는 것

a. 테스트 집단 or 조치집단

b. 통제집단

또는 A/B 테스트를 진행한다

다른 방법으론 챔피언/도전자 테스트 가 있다

방향성 데이터마이닝

하나 또는 다수의 목표변수 (target variable)

과거 데이터들은 모두 목표변수들의 값들을 가지고 있어야 함

예) 고객이탈 모형

목표변수를 설명하는 패턴을 찾음

무방향성 데이터마이닝

목표변수를 사용하지 않는(적어도 명시적을 사용하지 않는) 데이터마이닝

전체적인 패턴을 찾고자 함

패턴들이 발견된 후에 분석가는 이것을 해석할 책임이 있고 유용성을 판단해야 함

연관성 규칙, 군집화

-> 사전에 타켓이 정해지지 않음

데이터마이닝 기법

입력 -> 모형 -> 스코어

그러면 이제

비즈니스 목표 -> 데이터마이닝 목표 -> 데이터마이닝 기법

순으로 알아본다