분산 산점도 첨도 왜도 피어슨상관계수 등
분산
분산은 흩어져 있는 정도
분산도 지수 : 범위, 사분위편차, 평균편차, 표준편차 등
분산은 평균에 관한 편차제곱의 합을 사례 수로 나눈 것
편차제곱의 평균
통합집단의 전체 제곱합의 분해
통합된 집단의 평균이나 표준편차를 어떻게 구하나?
통합 평균부터 구하고, 이를 중심으로 해서 제곱해서 합하는 연산이 먼저 있어야 한다
통합 집단의 분산을 구할 때, 집단별로 점수가 얻어질 때, xij 첫번쨰 i는 집단 i x11
두번쨰 집단의 첫번째 것은 x21 이라고 표현한다
집단의 k개. x바에 관해서 각각의 점수와 x바의 차이값을 구한다
전체 집단의 분산을 구하기 위해서, 합연산을 2번하면 된다
첨자 i가 1에서 k까지 바뀐다라는 뜻이다. i가 1일때에 n일때까지 더해준다
표준점수 standard score
평균으로부터 편차점수를 그 분포의 표준편차로 나눈 값
2집단을 비교해야 할 때가 있다. 이 학생이 영어를 더 잘하는지 수학을 더 잘하는지 알고 싶다
표준화 라는 과정을 거치는 것이다
표준점수를 얻는 과정이다. 관심변수를 구한다
표준화한다 라고 한다. Z 변수. 표준화하는 과정.
X변수에서 Zx변수로 가는 선형변환이다. Z바의 평균을 구하면? 0이 된다.
이 말은 무슨 말이냐면, 어떤 변수간에 평균이 0이고 표준편차가 1이 된다
등간척도변수. 등간변수는 변수가 임의적이다. 섭시 1도 섭시0도.
체중이랑 키가 더 크냐? 체중과 키를 표현할 떄 원점과 단위를 쓴다. 하지만 원점과 단위는 임의적이다. 단위 자체는 다 임의점이다.
그래서 2변수간에 값은 임의적이다. 표준화를 거치면, 평균과 표준편차는 일치한다. 통일된다. Uniform 값을 비교하기 위해선 일단 표준화해야 한다. 왜? 임의적이기 때문이다.
T 점수 = 표준편차 * Z + 평균
통상적으로 T점수는 정규분포를 따른다고 본다
T 점수 = 표준편차 * Z + 평균
예를 들어서 2교과목을 비교해보자
국어는 평균 65 표준편차 8 원점수는 57
수학은 평균 52 표준편차 12 원점수는 58
국어의 z값은
57 = 8 * Z + 65
수학의 z값은
58 = 12 * Z + 52
그러면 국어의 z값은 -1 수학은 0.5가 나온다
수학이 더 잘했다
왜도. 좌우대칭이면 왜도가 0이다 / 3차 중심 정률
4차정렬까지 가게 되면 꼬리 부분이 얼마나 두터운지 나타낸다. 4차까지만 다루면 모양이 유추가 가능하다
왜도는 데이터의 분포를 나타내는데 좌 , 우로 얼마나 치우쳐졌는가를 나타낸다
첨도 – 뾰족한 정도. / 4차 중심 정률
중심적률이든 원점적률이든 모든 적률값을 모두 구하면 분포를 모두 복원할 수 있다
보통 4차까지만 구하면 분포가 다 구해진다
산점도
상관계수를 하기 전에 두 변수간에 관련도를 구하기 위해서 하는 것
두 변수 x,y 연속변수
두 개의 변수. 각각 n개로부터 측정한다고 할 때. 가장 편한 것이 x,y 평면도
좌표를 통해서 표현이 가능하다
N 명의 사례로부터 동시에 나타내기 위해서 그림을 산점도 라고 한다
Scatter plot 이라고 한다
x값이 증가함에 따라 y값이 증가하는 경향이 있다
공분산
두 변수에 평균에 관한 편차의 곱이 공분산?
분산의 일반형이다.
X 변수의 편차값 / y 변수의 편차값
교차곱. 두 편차 점수의 평균이다. 그런데 여기에서 x=y이면? 분산이 된다
함께 변하는 분산이다. 흩어진 정도가 함꼐 흩어지는 것이다
곱해질 때, 굳이 교차라고 말한다.
교차 곱의 평균 -> 공분산
두 변수가 함께 변하다가 보니까 산점도처럼 x, y값을 표현할 수밖에 없다
어떤 개체가 둘 다 + 일 때, 그리고 총 4가지 경우의 수
양의 부호 음의 부호. 편차 점수가 엄청나게 큰 값이다
멀리 떨어질 때, 곱하기 한 값도 액면 값이 크다. 그래프같이 나오면 공분산이 양수가 나온다고 보는 것이다
피어슨 교차 적률 상관계수. 상관의 정도를 수량화한 것
강도를 수량화한 것에 관심을 갖는다. 키가 클수록 몸무게가 나가는 경향이 있다 라고 할 때,
Xy 상관계수
X 변수값과 y변수값이 나왔을 때 어떻게 처리하느냐?
두 변수간의 공분산을 구하고, 각 표준편차로 나눠준다
분산을 표시할 대, Var(x) σ Cov(x,y)
공분산의 관점에서 어떻게 표시하냐면 Cov(x,x) 이렇게도 표시하는 게 맞다. 자신과의 공분산이기 때문에
이게 실질적으로 주어진 숫자 n개의 값이 있다고 하면,
X,y 두 변수의 단위를 통일화해준다. X,y
X,y 산점도를 표준화해준다고 하면 0,0일 중심으로 타원이 그려진다
피어슨 상관계수가 0보다 작다 또는 3보다 크다 그러면 데이터가 정규성이 없다고 본다