함께하는 데이터 분석

[ADsP] 3과목 오답노트 정리 본문

자격증 준비/ADsP

[ADsP] 3과목 오답노트 정리

JEONGHEON 2022. 2. 24. 23:58

의사결정나무 알고리즘 분류 기준

알고리즘 이산형 변수 연속형 변수
CART 지니지수 분산감소량
C5.0 엔트로피지수  
CHAID 카이제곱 통계량 p-value ANOVA F-통계량

 

은닉층 노드가 너무 많으면

과적합 문제

 

은닉층 노드가 너무 적으면

의사결정 경계를 만들 수 없다

 

은닉층의 개수가 너무 많아 역전파 과정에서 발생하는 문제

기울기 소실 문제

 

Softmax()

각 범주에 속할 사후 확률을 제공하는 함수

 

홀드아웃방법

모형 평가 방법 중 주어진 데이터를 랜덤 하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용하는 방법

 

향상도곡선

분류 분석의 모형을 평가하는 방법으로 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프

 

의사결정나무에서 불순도 측도

지니 지수 값이 클수록 이질적이며 순수도(purity)가 낮다

카이제곱 통계량 작을수록 이질성이 크다

 

EM알고리즘

E - 단계 : 잠재 변수 Z의 기대치 계산

M - 단계 : 잠재 변수 Z의 기대치를 이용하여 파라미터 추정

 

lgbm

부스팅 방법 중 Leaf-wise node 방법을 사용하는 알고리즘 

 

Precision

True로 예측한 관측치 중 실제 True인 지표

 

잡음(noise)

시계열 데이터에서 무작위적 변동이고, 일반적인 원인은 알려지지 않음

 

주성분 분석

회귀분석에서 다중공선성(Multicollinearity)의 문제를 해결하기 위해 활용

 

검정역

대립가설이 맞을 때 그것을 받아들이는 확률

 

결측값 처리 방법

completes analysis : 결측값이 존재하는 레코드를 삭제

평균대치법 : 데이터의 평균으로 대치

단순확률 대치법 : 평균대치법에서 추정량 표준 오차의 과소 추정 문제를 보완

다중 대치법 : 단순대치법을 한번 하지 않고 m번 대치

                     1단계 대치 2단계 분석 3단계 결합

 

오즈(odds)

p/(1-p)

로지스틱 회귀모형에서 한 단위 증가할 때마다 성공이 증가하는지를 나타냄

 

내용기반 필터링(Content-based filtering)

사용자 선호를 기반으로 하여 과거에 사용자가 좋아했던 것과 비슷한 아이템을 추천하는 알고리즘

 

분류분석이 이용되는 기법

①로지스틱 회귀분석

②의사결정나무

③앙상블기법

④인공신경망

 

랜덤포레스트

배깅에 랜덤과정을 추가한 방법

최적의 분할을 만들어 나가는 방법

 

SOM

코호넨이 제시

비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하는 클러스팅 방법

 

AR모형

시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모델

 

MA모형

시계열 모델 중 백색잡음의 결합이므로 언제나 정상성을 만족하는 모델