3. DC HW1

Author

이상민

Published

April 5, 2025

1. 제공된 코드를 이용하여 아래를 시행하시오.

1) 평균이 3인 정규분포, 포아송분포, 이항분포, 감마분포, 지수분포에서 각 500개의 표본을 생성해서 5개의 히스토그램을 그리고 5개의 표본평균을 구하시오. 모수가 여러 개인 경우 모수의 값을 조정해서 평균을 3으로 하시오

1. 정규분포

- 표본추출, 히스토그램

  • mean = 3 으로 지정
normal_random <- rnorm(n = 500, mean = 3)
hist(normal_random)

- 표본평균

mean(normal_random)
3.0025640596709

2. 포아송분포

- 표본추출, 히스토그램

  • 포아송 분포에서 \(E(X) = \lambda\) 이므로 \(\lambda\) = 3으로 지정
poisson_random <- rpois(n = 500, lambda = 3)
hist(poisson_random)

- 표본평균

mean(poisson_random)
2.874

3. 이항분포

- 표본추출, 히스토그램

  • 이항분포에서 \(E(X) = np =\) 3이 되어야하고, size : n, prob = p 에 대응되므로 평균을 10 X 0.3 = 3으로 설정
binomial_random <- rbinom(n = 500, size = 10, prob = 0.3)
hist(binomial_random, breaks = seq(-0.5, 10.5, by = 1))

- 표본평균

mean(binomial_random)
3.106

4. 감마분포

- 표본추출, 히스토그램

  • \(GAM(\alpha,\beta)\) 에서 shape : \(\alpha\), rate : \(\frac{1}{\beta}\) 에 대응
  • 감마분포에서 \(E(X) =\) \(\alpha\) X \(\beta =\) 3이 되어야함
  • 1(shape) X 3(=1/rate) = 3
gamma_random = rgamma(n=500,shape=1,rate=1/3)
hist(gamma_random)

- 표본평균

mean(gamma_random)
2.86597826745274

5. 지수분포

- 표본추출, 히스토그램

  • 지수분포에서 \(E(X)= \frac{1}{\lambda}=\) 3이 되어야함
  • rate= \(\lambda\) 이므로 3(=1/rate)=3
exponential_random <- rexp(n = 500, rate = 1/3)
hist(exponential_random)

- 표본평균

mean(exponential_random)
3.00293798354794

2) (추가) 이항분포, 정규분포, 감마분포에서 평균을 3, 분산을 5로 하여 각 500 개의 표본을 생성해서 3개의 히스토그램과 표본평균 그리고 표본 분산을 구하시오

1. 이항분포

- 표본추출, 히스토그램

  • 이항분포에서 \(E(X) = np\) 이고
  • 이항분포에서 \(Var(X) = np(1-p)\)
  • np=3이어야하고 np(1-p)=5여야하므로 (1-p)=5/3 \(\to\) (1-p)>1 \(\to\) 0>p인 상황이므로 불가능하다. p는 확률이므로 >=0
  • 이항분포에서 평균이 3, 분산이 5인 표본을 추출할 수 없다.

2. 정규분포

- 표본추출, 히스토그램

  • mean = 3 으로 지정
  • \(Var(X)=5\) 이여야 하므로 sd=\(\sqrt{Var}\)=\(\sqrt5\) 로 지정
normal_random <- rnorm(n = 500, mean = 3, sd=sqrt(5))
hist(normal_random)

- 표본평균, 표본분산

mean(normal_random)
var(normal_random)
2.92370604471217
5.19843216215837

3. 감마분포

- 표본추출, 히스토그램

  • \(GAM(\alpha,\beta)\) 에서 shape : \(\alpha\), rate : \(\frac{1}{\beta}\) 에 대응
  • 감마분포에서 \(E(X) =\) \(\alpha\) X \(\beta\) = 3이 되어야함
  • \(Var(X) =\) \(\alpha\) X \(\beta^2\) = 5가 되어야함
  • \(\to\) \(\beta\) = 5/3, \(\alpha\) = 9/5 \(\to\) rate = 3/5
gamma_random = rgamma(n=500,shape=9/5,rate=3/5)
hist(gamma_random)

- 표본평균, 표본 분산

mean(gamma_random)
var(gamma_random)
3.15297204789198
4.84604724922782

3. 아래와 같이 표본이 주어져 있다고 한다.

1) 두 변수 간의 표본과 공분산 그리고 표본 상관계수를 계산하고 해석하시오

x = c(10,20,10,1,3,5,8,9,10)
y = c(3,5,7,3,2,3,2,2,2)
cov(x,y)
cor(x,y)
4.13888888888889
0.442013916579573

- 표본 공분산 = 4.138

  • 표본 공분산 : \(S_{xy} > 0\) 이므로 x,y는 양의 선형적 관계를 가진다.
  • \(\to\) x가 증가할수록 y도 증가하는 경향을 보인다.

- 표본 상관계수 = 0.442

  • 표본 상관계수[-1,1] : \(r_{xy}\) > 0 이므로 양의 선형관계를 가진다.
  • 하지만 |\(r_{xy}\)|가 0.4정도로 약한 관계를 보인다.
  • \(\to\) x가 증가할수록 y도 증가하는 경향을 보이지만 그 관계는 약하다.

2) (추가) \(x\) \(\to\) \(2x+1\), \(y\) \(\to\) \(-y+2\)로 변환하고 나서 표본 상관계수를 계산하시오.

cor(2*x+1,-y+2)
-0.442013916579573

- 표본 상관계수 = -0.442

  • 상관계수의 크기는 선형 변환에 따라 바뀌지 않음
  • 만약 \(aX+b, cX+d\) 에서
      1. \(a\) X \(b\) \(< 0\) 이면 \(\to\) Corr(aX,cY) = -Corr(X,Y)
      1. \(a\) X \(b\) \(> 0\) 이면 \(\to\) Corr(aX,cY) = Corr(X,Y)
  • 여기서 2 X -1 = -2이므로 1)의 경우이므로 표본 상관계수의 부호가 변하였다.