일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- IRIS
- 코딩테스트
- 데이터 전처리
- matplotlib
- 회귀분석
- r
- 시각화
- ADsP
- 데이터 분석
- 파이썬
- ML
- tableau
- 자격증
- Deep Learning Specialization
- pandas
- 이것이 코딩테스트다
- Python
- pytorch
- 태블로
- 머신러닝
- 데이터분석
- Google ML Bootcamp
- SQL
- 통계
- SQLD
- 딥러닝
- sklearn
- 이코테
- 데이터분석준전문가
- scikit learn
- Today
- Total
목록통계 (72)
함께하는 데이터 분석
안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야 하는지를 알아보겠습니다. 예를 들면 종양의 악성 유무를 살펴보면 100명 중 1명이 악성이라고 할 때 어떻게 보면 굉장히 적은 수치이지만 1명의 경우 심각한 상황을 초래하기 때문에 정확히 예측하는 것이 중요하죠. 이때 99명이 종양이 없고 1명이 악성이라 하면 나머지 많은 데이터를 예측할 때 종양이 없다고 예측하면 99%의 정확도를 갖는 상황이 발생할 수 있습니다. 이렇게 차이가 나는 데이터라고 가정하면 어떠한 모형이냐에 따라 다르겠지만 보라색 부분의 y = 1인 값들은 아마도 0으로 분류될 확률이 높을 것입니다. 따라서 우리는 이러한 불균형을 해소하기 위한 2가지 방법을 알아보려 합니다...
안녕하세요! 이번에는 Python에서 Seaborn을 활용하여 범주형 변수의 시각화를 공부해보겠습니다. 라이브러리 실행 import numpy as np import pandas as pd import seaborn as sns 데이터 불러오기 mpg = sns.load_dataset('mpg') 1개의 범주형 변수에 대한 시각화 sns.countplot(data = mpg, x='origin') countplot은 x나 y에 하나의 범주형 변수만 넣으면 나머지는 개수로 표현됩니다. sns.countplot(data = mpg, y='origin') mpg['origin'].value_counts() >>> usa 249 japan 79 europe 70 Name: origin, dtype: int64 ..
안녕하세요! 오늘은 Python에서 Seaborn을 이용하여 수치형 변수의 시각화를 공부해보겠습니다. Seaborn은 Matplotlib보다 고수준으로 코드도 간단하고 미학적으로도 괜찮습니다. 그렇다면 Matplotlib보다 Seaborn이 좋다는 것일까요? 결론적으로는 두 가지 라이브러리를 다 사용할 줄 알아야 합니다. Matplotlib과 Seaborn을 같이 사용했을 때 Seaborn만을 사용했을 때 보다 더 좋은 결과물을 얻어낼 수 있습니다. 이처럼 결국에는 두 가지 라이브러리를 함께 사용하는 것이 효과적입니다. 그러면 오늘은 Seaborn을 이용하여 시각화를 시작해볼까요? 라이브러리 실행 import numpy as np import pandas as pd import seaborn as sns..
안녕하세요! 오늘은 간단하게 데이터 마이닝의 분석기법 분류를 알아보겠습니다. 데이터 마이닝은 크게 2가지인 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)으로 나뉩니다. 그렇다면 지도학습과 비지도학습의 차이는 무엇일까요? 지도학습은 종속변수인 y값 (output)이 존재하고 예측 분석 기법이라고도 말하죠. 비지도학습은 종속변수인 y값 (output)이 존재하지 않고 설명 분석 기법을 말합니다. 지도학습에는 대표적으로 Classification(분류분석)과 Regression(회귀분석)이 있는데 Classification과 Regression은 각각 종속변수가 범주형이냐 연속형이냐에 따라 나뉩니다. (선형회귀라고 가정) 비지도학습에는 대표적으로 Clust..
안녕하세요! 오늘은 데이터 마이닝을 소개하기까지 간단한 개요를 소개하겠습니다. 분석 대상과 방법 데이터 분석은 대상(What)과 분석의 방법(How)에 따라 4가지 유형으로 나눌 수 있습니다. 한 가지 주제의 분석이라도 상황에 따라 4가지 유형으로 분석을 수행하고 결과를 도출할 수 있습니다. 분석 기획시 고려할 사항 1. 가용데이터에 대한 고려(Available Data) 2. 적절한 활용방안과 활용사례(Proper Business Use Case) 3. 장애요소들에 대한 사전 계획 수립(Low Barrier of Excution) 분석 방법론 1. KDD 분석 방법론 2. CRISP-DM 방법론 위의 두 가지의 방법론이 존재합니다. 그중 데이터 마이닝의 과정을 포함하고 있는 KDD 방법론을 알아보겠습니..
오늘은 이어서 회귀분석 때 사용할 가설검정 과정, CLT, CI에 대해 알아보겠습니다. 위의 식에서 모수 B1의 값을 구했을 때 제대로 구했는지 가설검정을 해야 합니다. 귀무가설을 베타1 = 0 대립 가설을 베타1 =/ 0이라고 놓습니다. 만약 베타1이 0이면 엄마의 키 변수가 딸의 키에 영향을 미치지 않으므로 위의 회귀식은 의미가 없어지게 되니까요. 그렇다면 가설검정의 단계를 알아볼까요? 첫 번째로 귀무가설과 대립가설을 설정하고 두 번째로 유의수준 알파를 정합니다. 이후에 분포를 찾고 p-value값을 계산합니다. 마지막으로 p-value값과 알파 값을 비교하여 p-value값이 알파 값보다 작다면 귀무가설을 기각하고 크다면 귀무가설을 기각하지 못합니다. 여기서 중요한 것은 귀무가설을 채택한다고 표현하..
안녕하세요! 오늘은 선형회귀를 이용한 의료비 예측하는 간단한 예제를 살펴볼게요. 위 파일을 사용할 것입니다. 변수명 변수설명 Age 주 수익자의 연령, 정수(64세 이상은 일반적으로 정부에서 관리하기 때문에 제외) Sex 보험 계약자의 성별, 여성 또는 남성 Bmi 몸무게(kg)을 키(m)의 제곱으로 나눈 값 Children 의료보험이 적용되는 자녀 수/부양가족 수. 정수 Smoker 피보험자의 정기적인 흡연 여부, 예 또는 아니오, 범주형 변수 Region 사는 지역, 범주형 변수 Expenses 종속변수 위의 표가 변수에 관한 설명입니다. 이제 시작해볼까요? 1. 데이터 불러오기 setwd("경로") insurance >> [1] 1338 7 head(insurance) >>> age sex bmi ..
안녕하세요! 오늘은 회귀분석을 본격적으로 배우기 전 필요한 기본지식과 대략적인 소개를 하는 시간입니다. 제가 공부할 회귀분석 모델은 선형회귀분석(linear regression model)입니다. 독립변수 여러개와 종속변수 1개인 모델입니다. 종속변수가 범주형인 0과 1로 나옴에 따라 로지스틱회귀분석(logistic regression model) 이라는 것도 있지만 여기서는 다루지 않습니다. 다음학기에 범주형 자료 분석 때 기회가 된다면 살펴볼 예정입니다! 그리고 우리는 average outcome을 기반으로 할 것입니다. 평균이 아닌 중위수를 기반으로 하는 quantile regression도 있지만 여기서는 다루지 않습니다ㅠㅠ 그럼 본격적으로 시작해볼까요? 회귀분석에서 중요한 관점은 2가지 Asso..
의사결정나무 알고리즘 분류 기준 알고리즘 이산형 변수 연속형 변수 CART 지니지수 분산감소량 C5.0 엔트로피지수 CHAID 카이제곱 통계량 p-value ANOVA F-통계량 은닉층 노드가 너무 많으면 과적합 문제 은닉층 노드가 너무 적으면 의사결정 경계를 만들 수 없다 은닉층의 개수가 너무 많아 역전파 과정에서 발생하는 문제 기울기 소실 문제 Softmax() 각 범주에 속할 사후 확률을 제공하는 함수 홀드아웃방법 모형 평가 방법 중 주어진 데이터를 랜덤 하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용하는 방법 향상도곡선 분류 분석의 모형을 평가하는 방법으로 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프 의사결정나..
분석 과제 발굴 방식 중 하향식 접근법 문제 발견 -> 문제 정의 -> 해결책 탐색 -> 데이터 분석 타당성 평가 빅데이터 분석 방법론의 분석 기획 단계 ①비즈니스 이해 및 범위 설정 ②프로젝트 정의 및 계획 수립 ③프로젝트 위험 계획 수립 분석 마스터플랜을 수립할 때 적용 범위 및 방식에 대한 고려요소 ①업무 내제화 적용 수준 ②분석 데이터 적용 수준 ③기술 적용 수준 마스터플랜 수립할 때 우선순위 고려요소 ①전략적 중요도 ②비즈니스 성과/ROI ③실행 용이성 비즈니스 모델 캔버스 업무 -> 제품 -> 고객 -> 규제&감사 -> 지원 인프라 빅데이터기획전문가 회사 내 기능 조직, 비즈니스 분석 또는 BI조직에 소속되어 있으면서 빅데이터 분석 전문 조직과 협력을 통하여 업무에 필요한 분석 모델이나 예측 ..