일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 딥러닝
- 회귀분석
- tableau
- 데이터 전처리
- Deep Learning Specialization
- SQL
- 통계
- sklearn
- ML
- Python
- 데이터분석준전문가
- ADsP
- scikit learn
- 이것이 코딩테스트다
- r
- SQLD
- 시각화
- 머신러닝
- matplotlib
- IRIS
- 코딩테스트
- 자격증
- Google ML Bootcamp
- 데이터 분석
- 태블로
- pandas
- 이코테
- 파이썬
- pytorch
- 데이터분석
- Today
- Total
목록통계 (72)
함께하는 데이터 분석

오늘은 matplotlib을 이용하여 막대그래프를 그려보겠습니다. 저번 시간에 활용했던 수능 과학탐구 응시자 수에서 가장 최근인 2022년 데이터를 활용하겠습니다. 라이브러리 불러오기 import matplotlib.pyplot as plt plt.rc('font', family = 'AppleGothic') # mac # plt.rc('font', family = 'Malgun Gothic') # window plt.rc('font', size = 12) plt.rc('axes', unicode_minus = False) # -표시 오류 잡아줌 수능 과학탐구 응시자 수 리스트 science = ['physics', 'chemistry', 'life', 'earth'] people = [6.8, 8.0,..

오늘은 SSE와 결정계수(R^2)에 대해 알아보겠습니다. 저번 시간에 SSE에 대해서 알아봤는데 오늘은 2가지 model에 대해 SSE를 알아보겠습니다. M_0 model의 SSE m_0 model은 독립변수인 x_i가 없는 모델입니다. 빨간색 x표시가 observation인데 Y축 위에 있는 것을 볼 수 있죠. 이때 SSE는 위와 같습니다. SSE는 Sum of Square Estimation의 약자이죠. M_1 model의 SSE M_1 model이 우리가 알고 있는 simple linear regression입니다. M_1의 SSE가 우리가 말하는 일반적인 SSE입니다. M_0과 M_1 model의 SSE비교 observarion에서 회귀선으로 내린 선분의 제곱한 값이 SSE인 것은 다들 알고 계실..

이어서 Python으로 규제 회귀 모델인 라쏘, 릿지, 엘라스틱넷 regression을 알아보겠습니다. 모듈 및 데이터 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet, LassoCV, RidgeCV, ElasticNetCV from sklearn.preprocessing import StandardScaler from sklearn import met..

오늘은 규제 회귀 모델인 Lasso, Ridge, ElasticNet Regression에 대해 알아보겠습니다. 규제 회귀 모델 사용 배경 규제 회귀 모델 이전에 우리들이 많이들 알고 있는 선형 회귀 모형이 있습니다. 회귀모델의 목적은 크게 2가지입니다. 독립변수들의 연관성과 미래 데이터의 예측이죠. 그래서 예측력을 높이기 위해 학습 데이터에 지나치게 맞추게 되고 과적합(overfitting)의 문제가 발생하게 됩니다. 그래서 overfitting의 문제를 해결하기 위해 overfitting 된 파라미터에 페널티를 부여하는 규제 회귀모델이 등장합니다. Lasso Regression L1-norm 페널티항으로 회귀모델에 페널티를 부과하여 모델의 설명력에 기여하지 못하는 독립변수의 회귀계수 크기를 0에 가깝..

오늘은 비지도학습인 Cluster Analysis(군집분석)을 공부해보겠습니다. Clustering 이란? - 데이터에서 속성(input variables)에 따라 데이터들(observations) 간의 유사성을 측정하여 군집(cluster)을 찾는 것 - 군집을 찾을 때는 같은 군집 내의 데이터들은 가능한 동질성을 갖게 하고, 군집 간 데이터들은 가능한 이질성을 갖게 해야 함 Cluster Analysis의 활용 고객의 세분화 고객의 맞춤 관리 구매패턴에 따른 신상품 판촉 교차판매 유사성 거리 측도 Euclidean Distance : 직선 거리 Manhattan Distance : ㄱ자 거리 Mahalanobis Distance : 표준화와 상관성을 동시에 고려한 거리 이때 S는 표본 공분산 행렬 S..

오늘은 Maplotlib을 이용하여 산점도 그래프를 그려보겠습니다. 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rc('font', family = 'AppleGothic') # mac # plt.rc('font', family = 'Malgun Gothic') # window plt.rc('font', size = 12) plt.rc('axes', unicode_minus = False) # -표시 오류 잡아줌 데이터 불러오기 import seaborn as sns iris = sns.load_dataset('iris') 이번에는 seaborn에 내장되어있는 데이터인 iris데이터를 이용하여 산..

오늘은 R코드를 통해 간단한 예시로 로지스틱 회귀분석과 LDA를 알아보겠습니다. 자료는 R패키지인 ISLR에서 Smarket 데이터를 이용하겠습니다. Smarket 데이터는 2001년부터 2005년까지의 1250일에 걸친 S&P500 주가지수 수익률을 나타낸 데이터입니다. 변수 설명 Year 연도(2001년 ~ 2005년) Lag1 ~Lag5 해당 날짜 1~5일 전의 수익률 Volume 해당 날짜 전날에 거래된 주식 수(단위 : 10억 주) Today 당일의 수익률 Direction 당일 주가 지수 상승 / 하락 여부(UP / DOWN) 데이터 불러오기 library(ISLR) stocks >> [1] "Year" "Lag1" "Lag2" "Lag3" [5] "Lag4" "Lag5" "Volume" "T..

반응변수가 범주형인 경우 분류(Classification)를 사용하고 분류기(Classifiers)에 여러 가지가 있지만 저번 시간에 간략하게 다룬 로지스틱 회귀분석에 이은 선형 판별분석 LDA에 대해 알아보겠습니다. 간단한 이론정도에 불과하지만 로지스틱 회귀분석을 살펴보려면 2022.03.24 - [통계학과 수업 기록/데이터 마이닝] - [데이터 마이닝] 로지스틱 단순회귀모형 [데이터 마이닝] 로지스틱 단순회귀모형 안녕하세요! 오늘은 로지스틱 단순 회귀모형에 대해 알아보겠습니다. 위의 사진에서 주황색 그래프가 로지스틱 회귀 곡선입니다. 로지스틱 회귀모형은 설명변수인 x는 연속형이든 범주형이든 tnqkrdmssjan.tistory.com 여기로 이동해주시면 감사하겠습니다. 분류를 위한 베이즈 정리 사용 ..

안녕하세요. 오늘은 단순 선형 회귀모형에서 모수인 β_0, β_1을 추정하기 위한 방법으로 LSE(least Square Estimation)과 MLE(Maximum Likelihood Estimation)을 알아보겠습니다. 단순 선형회귀식 이때 입실론을 남기고 좌변으로 넘기면 아래의 식이 완성됩니다. 입실론 입실론은 그래프 상으로 위와 같은 파란색 선분의 길이입니다. 이때 LSE(Least Square Estimation)는 즉, 길이의 제곱의 합이 최소가 되는 최소제곱법을 나타냅니다. Fitting Model SSE(Sum of Square Estimation) 우리가 가장 많이 쓰는 방법입니다. 우리의 목표는 입실론의 제곱의 합이 최소가 되게 하는 것이죠. SAD(Sum of Absolute Dif..

오늘은 이어서 데이터 불균형 해소를 간단한 R코드를 통해 알아보겠습니다. 2022.03.20 - [학회 기록/학회 세션] - 데이터 불균형 해소 데이터 불균형 해소 안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야하는지를 알아보겠습니다. 예를들면 종양의 악성유무를 살펴보면 100명 tnqkrdmssjan.tistory.com 이전 발행 글은 위를 참고하시면 됩니다. 기본 데이터 # 문과(0) 이과(1) set.seed(0320) y = c(rep(0, 15), rep(1, 50)) y = as.factor(y) math = c(rnorm(15, 50, 15), rnorm(50, 70, 12)) eng = c(rnorm(15, 70, 12)..