검색어 입력폼

[통계적 데이터마이닝] K-means and Kohonen clustering

저작시기 2005.05 |등록일 2005.06.08 한글파일한컴오피스 (hwp) | 12페이지 | 가격 1,000원

목차

Ⅰ. 도입
1. 분석 목적

Ⅱ. K-means 군집화 과정
1. 파일 불러온 후 병합
2. 군집화 변수 지정
3. 결측값 제거
4. K-means 군집화
5. 군집화 결과(내부)
6. 군집의 외적 특성
7. 통합(Aggregate)노드

Ⅲ. 코호넨 네트워크(Kohonen Network) 과정
1. 파일불러오기 ~ 결측값 제거
2. 코호넨 네트워크
3. 파생 노드 생성
4. 코호넨 출력 플롯
5. 교차표를 이용한 외적 평가
6. 통합 노드 및 테이블 작성
7. 전체 스트림

Ⅳ. K-means와 코호넨의 결과 비교 및 검토
1. Reliability가 높은 레코드의 비교
2. 검토

본문내용

1. 분석 목적
111대의 자동차에 대한 파일 CAR_NAME.TXT와 CAR_DATA.TXT를 클레멘타인에서 병합한 다음, 임의의 분석 변수를 선택하고 그 변수의 결측값을 제거한 자료를 토대로 특성에 따라 5개의 군집으로 분류하고 K-means와 Kohonen Network를 모두 적용하여 비교하여 보도록 하자.

Ⅱ. K-means 군집화 과정
1. 파일 불러온 후 병합
① 클레멘타인에서 가변파일 노드를 선택한 후, 각각 CAR_NAME.TXT 파일과 CAR_DATA파일을 불러온다.
② 병합 노드를 불러와 각각의 파일노드로부터 연결을 시킨다.
③ 테이블을 통해 확인해 본 결과 37개 필드에 111개의 파일이 확인되었다.

2. 군집화 변수 지정
① 타입 노드를 불러온 후, 군집화 변수로 사용할 변수는 방향을 입력으로 바꾸어주며, 다른 변수들은 방향을 없음으로 설정해준다.
② 이 때 군집화 변수로 사용되는 변수는, 구간형이어야만 하며, 여기서는 Wheel.base, Height, Rear.Hd, Gear.Ratio, Eng.Rev, Reliability으로 정하였다.
③ 다양한 변수가 존재하나, 비슷한 의미와 수치를 가진 변수들의 중복은 피하였다. 예를 들어, Rear.Seating, Rear.Hd, RearShld, Luggage는 비슷한 의미와 수치를 가진다고 판단되어 수차례의 다른 변수들과의 군집화 과정을 통해서 가장 군집의 특성을 비교적 잘 나타내주는 변수인 Rear.Hd를 택하였다.

참고 자료

데이터마이닝 모델링과 사례
데이터마이닝
클레멘타인 v8.1
다운로드 맨위로