검색어 입력폼

[통계학] 통계학

저작시기 2004.12 |등록일 2004.12.14 한글파일한컴오피스 (hwp) | 38페이지 | 가격 1,000원

소개글

통계학 고난이도 문제입니다.

목차

1. coal ash data에 대해서 다음을 구하여라.
(1) stem-and-leaf plot, box plot , resistant or nonresistant summary 등등 여러 가지 EDA 기법을 이용해서 기본적인 data 분석을 실행하여라.
(2) Median polish와 simple regression을 이용하여 data 분석을 실시하고 outlier에 대한 검증도 하여라 (자세히 할것)
(2) (1)번 문제의 data에서 회귀분석도 시행한후 직교하는 설명변수들에 대한 계수 추정값을 구해서 (1)번의 결과 추정값과 각각 비교해 보고 분석결과에 대해서도 비교, 설명하여라.
(3) EDA 교재에서 p.251의 3)번 문제의 data에 대해서 상관관계를 plot과 피어슨 상관계수를 이용해서 분석하여라.
5.Pima Indian data에 대해서 다음을 구하세요
(1) age에 대한conc. 의 plot과 boxplot, summary들을 이용해서 data에 대해서 분석하세요.
(2) outlier라고 의심할만한 data 가 있는지 살펴보고 만약 그렇다면 왜 그렇게 생각하는지 설명하세요
(3) 저항성 회귀 직선과 회귀분석을 이용해서 각각 분석해 보고 비교해 보세요
4) outlier가 있는거 같다면 그 점을 제거한후에 (3)번문제를 다시한번 풀어 보세요
6. EDA 교재에서 p.247 에 나와있는 내용중에서 ② 의 ()안의 내용을 보면 회귀식의 절편항이 항상 0이 된다는 사실이 나와있다. 이 내용을 수식으로 증명하시오.

본문내용

잔차의 줄기잎그림과 Box-Plot을 보면 이상점들이 매우 많다는 것을 알 수 있다. 이에 대해서는 추가적인 분석이 필요하다. 이상점의 분석은 회귀분석에서 자세히 다루겠다.
2) simple regression
Data set = coal, Name of Fit = L1
Normal Regression
Kernel mean function = Identity
Response = Z
Terms = (X Y)
Coefficient Estimates
Label Estimate Std. Error t-value p-value
Constant 11.2481 0.225160 49.956 0.0000
X -0.177046 0.0251585 -7.037 0.0000
Y -0.0105182 0.0140991 -0.746 0.4565
R Squared: 0.23077
Sigma hat: 1.12495
Number of cases: 208
Degrees of freedom: 205
Summary Analysis of Variance Table
Source df SS MS F p-value
Regression 2 77.8298 38.9149 30.75 0.0000
Residual 205 259.432 1.26552
회귀추정식 : = 11.2481 - 0.177046X -0.0105182Y
: 자료를 회귀분석으로 fitting한 결과이다. 회귀추정식으로 전체 변동 중에 설명할 수 있는 부분의 비율을 뜻하는 R Squared가 0.23077이므로 매우 낮다고 보이고, p-value들을 보면 constant와 x에 대한 t-test 와 overall fit F-test의 p-value는 매우 유의하게 나왔는데 y에 대한 t-test의 p-value는 매우 유의하지 않게 나왔음을 볼 수 있다.
다음으로 residual plot들을 살펴보자.

참고 자료

통계학 원론
수리통계학,추정과 가설검정, 고난이도 회귀분석
상관분석,분산분석
다운로드 맨위로