KLDPWiki: cjftn0/2008-03-30

cjftn0/2008-03-30

Describe cjftn0/2008-03-30

-미팅시간에 10cv의 평균이 70%정도라고 말씀드렸는데, 이번의 결과는 약간 낮게 나왔습니다. 이런 이유는 랜덤 샘플링에 의해서 초기의 샘플들을 n1,n2,.....,n10까지의 데이터 셋으로 나누게 되는데, 이 데이터 셋의 각 모수(mean, variance)가 매번 모델 만들 때 마다 변경되게 되고, 이러한 영향이 매번 결과에 영향을 주기 때문으로 생각됩니다. 앞으로 여러 번 모델을 만들어서 모델 정확도의 평균을 산출하여 결과에 포함시키겠습니다. 교수님 가르침으로 지금까지 간과 하고 있었던 부분을 새삼 깨닫게 되었습니다. ^^;;

-분류 모델 구성에 사용된 방식

1.msc.features.select 로 속성차원 줄임 2.tree 모델 - 사용된 feature selection 방식은 gini

10 cross validation

-시도 해본 방법

1.속성 선택하는 다른 메서드 이용- relifcat feature selection

결과- 10cv의 평균 약 58%

2.rpart 이용하여 모델 구축시도 -벡터할당 에러 or too many element specified 3.msc.features.select에서 RemCorrcol, keepCol 파라미터 조정

0.98/0.72 => null vector (선택된 속성이 없는 cv 발생) 0.98/0.75 => null vector (선택된 속성이 없는 cv 발생) 0.98/0.8 => null vector (선택된 속성이 없는 cv 발생)

-시도 도중 얻은 아이디어

1.오분류율이 15% 이하인 10cv들 중에서 공통된 속성을 발견 이 속성이 사용 안 된 10cv는 오분류율이 높다는 것을 발견
=>오분류율이 15% 이하인 10cv들 중에서 선택된 속성들의 전체 집합에서 빈발하 는 속성과 공통속성을 이용하여 모델 구축.다음주 계획

빈발하는 속성의 빈도수 및 공통속성(5번의 빈도수 가진 속성)

5번의 10 cross validation을 통해 만들어진 10cv 중에서 약15% 이하의 오분류율을 나타 낸 10cv 만 선택하여, 이것의 선택 되어진 속성의 공통된 속성과 빈도수를 구했습니다.

속성 빈도수 "X228769_at" 공통속성 “X227094_at” 4 "X219821_s_at" 3 "X1557483_at" 3 "X1564190_x_at" 2 "X221572_s_at" 2 "X227356_at" 2 "X219429_at" 2

Classification tree: tree(formula = class ~ ., data = iter10, na.action = na.pass,