일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 전처리
- 데이터분석
- 자격증
- 파이썬
- IRIS
- pandas
- 시각화
- sklearn
- 이코테
- scikit learn
- 코딩테스트
- r
- 데이터 분석
- pytorch
- 통계
- Google ML Bootcamp
- 딥러닝
- 회귀분석
- 이것이 코딩테스트다
- Python
- Deep Learning Specialization
- 태블로
- ML
- matplotlib
- 데이터분석준전문가
- ADsP
- 머신러닝
- tableau
- SQL
- SQLD
- Today
- Total
목록데이터분석 (20)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cIlez2/btrKQShL6hQ/EyiqTLGcGd7k9kTXEnMMKk/img.png)
주성분 분석(Principal Component Analysis) 차원을 축소하는 알고리즘 중 가장 인기 있는 알고리즘 사이킷런 import numpy as np np.random.seed(4) m = 60 w1, w2 = 0.1, 0.3 noise = 0.1 angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5 X = np.empty((m, 3)) X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2 X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2 X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + n..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/rJlXl/btrJ6N4vEGk/gUm2RdlyuRVxNFbQqWS4S1/img.png)
이번에는 소프트맥스 회귀를 진짜 맛만 보겠습니다. 정말 간단하게 저번에 봤던 iris 데이터를 가지고 코드만 돌려보는 식으로 진행할게요! 이전의 데이터 설명이나 로지스틱 회귀를 파이썬으로 돌린 포스팅은 2022.08.19 - [학회 세션/파인드 알파] - [Find - A] [Python] 로지스틱 회귀 [Find - A] [Python] 로지스틱 회귀 안녕하세요! 오늘은 로지스틱 회귀모형을 Python으로 돌려보겠습니다. 다른 포스팅에도 개념은 설명되어 있어 간단하게 말하고 넘어갈게요. 로지스틱 회귀는 이진 분류기로 샘플이 특정 클래스 tnqkrdmssjan.tistory.com 여기를 확인하시면 됩니다. 시작할게요! 소프트맥스 회귀 로지스틱 회귀 모델은 여러 개의 이진 분류기를 훈련시켜 연결하지 않고..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/kZuZ7/btrBbcLgJZH/7BzIULAGiKkhzGSpHF4xVk/img.png)
안녕하세요. 오늘은 태블로를 이용하여 막대그래프를 그려보겠습니다. 태블로 측정값과 차원 저번 시간에 태블로를 킨 다음 insurance 데이터를 불러오는 것 까지는 살펴봤습니다. 이제 좌측에 보시면 선을 기준으로 위쪽과 아래쪽이 나뉩니다. 아래쪽 변수들을 측정값이라고 하고 위쪽 변수들을 차원이라고 합니다. 측정값은 숫자 형식으로 이루어진 변수들입니다. 설정된 집계인 합계, 평균, 중앙값 등등 에 따라 차트를 만듭니다. 차원은 측정값으로 만들어진 차트를 어떻게 분류하여 볼 것인지를 결정합니다. 실습으로 바로 살펴볼게요. 태블로로 측정값을 이용하여 막대그래프 그리기 측정값에서 Expenses변수인 비용으로 막대그래프를 그리겠습니다. 위의 행에 합계(Expenses)가 들어간 것을 확인할 수 있습니다. 처음 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bvuKJ8/btrxrcniPMC/iRBVnDlMZpyC6Y4kic8k61/img.png)
오늘은 R코드를 통해 간단한 예시로 로지스틱 회귀분석과 LDA를 알아보겠습니다. 자료는 R패키지인 ISLR에서 Smarket 데이터를 이용하겠습니다. Smarket 데이터는 2001년부터 2005년까지의 1250일에 걸친 S&P500 주가지수 수익률을 나타낸 데이터입니다. 변수 설명 Year 연도(2001년 ~ 2005년) Lag1 ~Lag5 해당 날짜 1~5일 전의 수익률 Volume 해당 날짜 전날에 거래된 주식 수(단위 : 10억 주) Today 당일의 수익률 Direction 당일 주가 지수 상승 / 하락 여부(UP / DOWN) 데이터 불러오기 library(ISLR) stocks >> [1] "Year" "Lag1" "Lag2" "Lag3" [5] "Lag4" "Lag5" "Volume" "T..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/babXfT/btrxkgdoBfX/IUh0Yrpg6H2W9hzddar050/img.png)
반응변수가 범주형인 경우 분류(Classification)를 사용하고 분류기(Classifiers)에 여러 가지가 있지만 저번 시간에 간략하게 다룬 로지스틱 회귀분석에 이은 선형 판별분석 LDA에 대해 알아보겠습니다. 간단한 이론정도에 불과하지만 로지스틱 회귀분석을 살펴보려면 2022.03.24 - [통계학과 수업 기록/데이터 마이닝] - [데이터 마이닝] 로지스틱 단순회귀모형 [데이터 마이닝] 로지스틱 단순회귀모형 안녕하세요! 오늘은 로지스틱 단순 회귀모형에 대해 알아보겠습니다. 위의 사진에서 주황색 그래프가 로지스틱 회귀 곡선입니다. 로지스틱 회귀모형은 설명변수인 x는 연속형이든 범주형이든 tnqkrdmssjan.tistory.com 여기로 이동해주시면 감사하겠습니다. 분류를 위한 베이즈 정리 사용 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ciSxKe/btrxaOtWDcY/0Jb96J2Ycanz0mOANAuaWk/img.png)
안녕하세요! 오늘은 이미지 증강(Image Augmentation)을 python을 통해 구현해보겠습니다. Image Augmentation은 몇 개의 이미지를 활용하여 이미지에 여러 가지 변화를 주어 데이터의 양을 증가시키는 것입니다. 장점은 데이터 다양성 향상과 모델 성능 향상 등이 있습니다. 그렇다면 python에서 살펴볼까요? 라이브러리 불러오기 import numpy as np from matplotlib.pyplot import imshow, subplots, title from PIL import Image from torchvision import transforms import albumentations import random 이미지 불러오고 그리기 img = Image.open('경로..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/l3ikR/btrwIhXOxmf/6KxcYf7eLstySKokIFXxl0/img.png)
안녕하세요! 오늘은 이번 2월 26일 날 시행된 ADsP(Advanced Data Analytics semi-Professional) 시험에 합격한 후기를 작성하려고 합니다!! 어찌 보면 나름 전공자라 당연한 건데 제가 2월 10일부터 가족의 코로나로 인해 격리가 시작됐습니다 ㅠㅠ 이후 2월 13일 저도 코로나 확진이 되고 2월 20일에 격리가 해제돼서 공부를 한 기간이 4일 정도였습니다. 그전에 뭐했냐고 하신다면... 놀았습니다 ㅠㅠ 그렇다면 어떻게 공부했는지를 말씀드리겠습니다. 우선 제가 공부한 기간 4일 동안 하루에 1시간 반 정도 투자를 했습니다. 3과목 데이터분석 쪽은 아무래도 익숙한 부분이고 배점도 가장 커서 수월했습니다. 1과목과 2과목은 완전 암기 단원이라 과락이 될까 봐 걱정됐습니다.. ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bJ2uWE/btrwooIJ4of/iWVXkjAbSWhKa83UulW5A1/img.png)
안녕하세요! 이번에는 Python에서 Seaborn을 활용하여 범주형 변수의 시각화를 공부해보겠습니다. 라이브러리 실행 import numpy as np import pandas as pd import seaborn as sns 데이터 불러오기 mpg = sns.load_dataset('mpg') 1개의 범주형 변수에 대한 시각화 sns.countplot(data = mpg, x='origin') countplot은 x나 y에 하나의 범주형 변수만 넣으면 나머지는 개수로 표현됩니다. sns.countplot(data = mpg, y='origin') mpg['origin'].value_counts() >>> usa 249 japan 79 europe 70 Name: origin, dtype: int64 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cph0V6/btrwiyzOiux/yYe6tR5NuAGHzfkMClq190/img.png)
안녕하세요! 오늘은 Python에서 Seaborn을 이용하여 수치형 변수의 시각화를 공부해보겠습니다. Seaborn은 Matplotlib보다 고수준으로 코드도 간단하고 미학적으로도 괜찮습니다. 그렇다면 Matplotlib보다 Seaborn이 좋다는 것일까요? 결론적으로는 두 가지 라이브러리를 다 사용할 줄 알아야 합니다. Matplotlib과 Seaborn을 같이 사용했을 때 Seaborn만을 사용했을 때 보다 더 좋은 결과물을 얻어낼 수 있습니다. 이처럼 결국에는 두 가지 라이브러리를 함께 사용하는 것이 효과적입니다. 그러면 오늘은 Seaborn을 이용하여 시각화를 시작해볼까요? 라이브러리 실행 import numpy as np import pandas as pd import seaborn as sns..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/coPiI7/btrvOfMrj7q/DjkBNbhVAUdytzNbxyhg3k/img.png)
안녕하세요! 오늘은 선형회귀를 이용한 의료비 예측하는 간단한 예제를 살펴볼게요. 위 파일을 사용할 것입니다. 변수명 변수설명 Age 주 수익자의 연령, 정수(64세 이상은 일반적으로 정부에서 관리하기 때문에 제외) Sex 보험 계약자의 성별, 여성 또는 남성 Bmi 몸무게(kg)을 키(m)의 제곱으로 나눈 값 Children 의료보험이 적용되는 자녀 수/부양가족 수. 정수 Smoker 피보험자의 정기적인 흡연 여부, 예 또는 아니오, 범주형 변수 Region 사는 지역, 범주형 변수 Expenses 종속변수 위의 표가 변수에 관한 설명입니다. 이제 시작해볼까요? 1. 데이터 불러오기 setwd("경로") insurance >> [1] 1338 7 head(insurance) >>> age sex bmi ..