데이터마이닝 오류 범하지 않는 법
데이터 마이닝은 더 나은 결정을 위해 과거에서 학습하는 방법이다
피해야할 것으로는 1. 사실이 아닌 것을 학습하는 경우 2. 사실이지만 유용하지 않는 것을 학습하는 경우
이 중에서 1번이 더 좋지 않다
사실이 아닌 것을 학습하는 경우에는
파악된 패턴이 실제 존재하지 않는 규칙을 표현하지 않을 수 있다.
데이터 집합이 모집단을 올바로 표현하지 않는다
데이터 상세화 수준이 잘못되었다. 공휴일 데이터를 반영하지 않는 경우 등
사실이지만 유용하지 않는 것을 학습하는 경우
이미 알려진 것을 학습하는 경우 - 은퇴자에게 은퇴적금에 대해 홍보하는 경우
사용될 수 없는 것을 학습하는 경우
데이터집합이 올바른 모집단을 반영하지 않을 수 있다.
데이터 집합은 모집단을 반영해야 하지만 그렇지 않을 경우 편향적이다라고 한다
데이터마이닝 스타일
top- down 스타일: inght에서 시작한다.
1번
botton -up 스타일: 데이터를 통해서 패턴을 찾아 insight를 찾는것
2,3번
가설검정
방향성 데이터마이닝
무방향성 데이터마이닝
세부적으로 설명해본다
가설검정: 데이터 분석을 통해 타당성이 검증될 수 있는 제시된 설명
가장 기본적인 실험 설계는 두 집단을 생성하는 것
a. 테스트 집단 or 조치집단
b. 통제집단
또는 A/B 테스트를 진행한다
다른 방법으론 챔피언/도전자 테스트 가 있다
방향성 데이터마이닝
하나 또는 다수의 목표변수 (target variable)
과거 데이터들은 모두 목표변수들의 값들을 가지고 있어야 함
예) 고객이탈 모형
목표변수를 설명하는 패턴을 찾음
무방향성 데이터마이닝
목표변수를 사용하지 않는(적어도 명시적을 사용하지 않는) 데이터마이닝
전체적인 패턴을 찾고자 함
패턴들이 발견된 후에 분석가는 이것을 해석할 책임이 있고 유용성을 판단해야 함
연관성 규칙, 군집화
-> 사전에 타켓이 정해지지 않음
데이터마이닝 기법
입력 -> 모형 -> 스코어
그러면 이제
비즈니스 목표 -> 데이터마이닝 목표 -> 데이터마이닝 기법
순으로 알아본다