일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 이것이 코딩테스트다
- 태블로
- SQL
- 데이터분석
- 이코테
- SQLD
- 데이터 분석
- 데이터분석준전문가
- IRIS
- ADsP
- r
- Python
- Google ML Bootcamp
- scikit learn
- 파이썬
- pytorch
- matplotlib
- 데이터 전처리
- tableau
- Deep Learning Specialization
- 코딩테스트
- 머신러닝
- 딥러닝
- ML
- sklearn
- 회귀분석
- 자격증
- 시각화
- 통계
- pandas
- Today
- Total
목록전체 글 (142)
함께하는 데이터 분석

이번에는 선 그래프를 그렸던 것을 바탕으로 선 그래프의 모양이나 배경을 꾸미는 것을 알아보겠습니다. 라이브러리 불러오기 import matplotlib.pyplot as plt import random x, y 리스트 설정 x = [i for i in range(1, 11)] random.seed(42) y=[] for i in range(1,11): z=random.randint(10,21) y.append(z) print(y) >>> [20, 11, 10, 21, 14, 13, 13, 12, 21, 11] 선 굵기 설정 plt.plot(x, y) plt.show() 이것이 기본으로 나오는 선의 굵기입니다. 선의 굵기를 조금 키워보겠습니다. plt.plot(x, y, linewidth = 12) # p..

오늘은 Python에서 Matplotlib을 활용하여 데이터를 시각화하는 방법을 공부하겠습니다. 그럼 시작해볼게요. 라이브러리 불러오기 import matplotlib.pyplot as plt import random 위의 matplotlib이 우리가 공부해 볼 라이브러리이고 밑의 random은 왜 썼는지 밑에서 보여드릴게요. x, y 리스트 설정 x = [i for i in range(1, 11)] random.seed(42) y=[] for i in range(1,11): z=random.randint(10,21) y.append(z) print(y) >>> [20, 11, 10, 21, 14, 13, 13, 12, 21, 11] x에 1부터 10까지 리스트를 생성했고 y에 11부터 20까지 숫자 중..

오늘은 R코드를 통해 간단한 예시로 로지스틱 회귀분석과 LDA를 알아보겠습니다. 자료는 R패키지인 ISLR에서 Smarket 데이터를 이용하겠습니다. Smarket 데이터는 2001년부터 2005년까지의 1250일에 걸친 S&P500 주가지수 수익률을 나타낸 데이터입니다. 변수 설명 Year 연도(2001년 ~ 2005년) Lag1 ~Lag5 해당 날짜 1~5일 전의 수익률 Volume 해당 날짜 전날에 거래된 주식 수(단위 : 10억 주) Today 당일의 수익률 Direction 당일 주가 지수 상승 / 하락 여부(UP / DOWN) 데이터 불러오기 library(ISLR) stocks >> [1] "Year" "Lag1" "Lag2" "Lag3" [5] "Lag4" "Lag5" "Volume" "T..

반응변수가 범주형인 경우 분류(Classification)를 사용하고 분류기(Classifiers)에 여러 가지가 있지만 저번 시간에 간략하게 다룬 로지스틱 회귀분석에 이은 선형 판별분석 LDA에 대해 알아보겠습니다. 간단한 이론정도에 불과하지만 로지스틱 회귀분석을 살펴보려면 2022.03.24 - [통계학과 수업 기록/데이터 마이닝] - [데이터 마이닝] 로지스틱 단순회귀모형 [데이터 마이닝] 로지스틱 단순회귀모형 안녕하세요! 오늘은 로지스틱 단순 회귀모형에 대해 알아보겠습니다. 위의 사진에서 주황색 그래프가 로지스틱 회귀 곡선입니다. 로지스틱 회귀모형은 설명변수인 x는 연속형이든 범주형이든 tnqkrdmssjan.tistory.com 여기로 이동해주시면 감사하겠습니다. 분류를 위한 베이즈 정리 사용 ..

안녕하세요. 오늘은 단순 선형 회귀모형에서 모수인 β_0, β_1을 추정하기 위한 방법으로 LSE(least Square Estimation)과 MLE(Maximum Likelihood Estimation)을 알아보겠습니다. 단순 선형회귀식 이때 입실론을 남기고 좌변으로 넘기면 아래의 식이 완성됩니다. 입실론 입실론은 그래프 상으로 위와 같은 파란색 선분의 길이입니다. 이때 LSE(Least Square Estimation)는 즉, 길이의 제곱의 합이 최소가 되는 최소제곱법을 나타냅니다. Fitting Model SSE(Sum of Square Estimation) 우리가 가장 많이 쓰는 방법입니다. 우리의 목표는 입실론의 제곱의 합이 최소가 되게 하는 것이죠. SAD(Sum of Absolute Dif..

안녕하세요! 오늘은 이미지 증강(Image Augmentation)을 python을 통해 구현해보겠습니다. Image Augmentation은 몇 개의 이미지를 활용하여 이미지에 여러 가지 변화를 주어 데이터의 양을 증가시키는 것입니다. 장점은 데이터 다양성 향상과 모델 성능 향상 등이 있습니다. 그렇다면 python에서 살펴볼까요? 라이브러리 불러오기 import numpy as np from matplotlib.pyplot import imshow, subplots, title from PIL import Image from torchvision import transforms import albumentations import random 이미지 불러오고 그리기 img = Image.open('경로..

안녕하세요! 오늘은 로지스틱 단순 회귀모형에 대해 알아보겠습니다. 위의 사진에서 주황색 그래프가 로지스틱 회귀 곡선입니다. 로지스틱 회귀모형은 설명변수인 x는 연속형이든 범주형이든 상관없지만 반응변수인 y는 보통 범주가 2개인 0, 1을 나타냅니다. 그럼 이제 로지스틱 단순 회귀모형을 공부할 때 필요한 기본개념을 설명하겠습니다. 오즈(Odds) : 성공확률이 실패 확률에 비해 몇 배 더 높은가 오즈(odds)를 상대적 가능성이라고도 표현합니다. 오즈의 범위는 0 < odds < ∞ 입니다. 로짓 변환(logit transform) : 오즈에 로그를 취해서 p의 범위가 [0,1] 일 때 (-∞,+∞)로 변환 y=a+bx에서 로지스틱 회귀모형에서 반응변수는 [0,1]을 가져야 하는데 설명변수에 따라 0보다 ..

안녕하세요! 오늘은 이번 2월 26일 날 시행된 ADsP(Advanced Data Analytics semi-Professional) 시험에 합격한 후기를 작성하려고 합니다!! 어찌 보면 나름 전공자라 당연한 건데 제가 2월 10일부터 가족의 코로나로 인해 격리가 시작됐습니다 ㅠㅠ 이후 2월 13일 저도 코로나 확진이 되고 2월 20일에 격리가 해제돼서 공부를 한 기간이 4일 정도였습니다. 그전에 뭐했냐고 하신다면... 놀았습니다 ㅠㅠ 그렇다면 어떻게 공부했는지를 말씀드리겠습니다. 우선 제가 공부한 기간 4일 동안 하루에 1시간 반 정도 투자를 했습니다. 3과목 데이터분석 쪽은 아무래도 익숙한 부분이고 배점도 가장 커서 수월했습니다. 1과목과 2과목은 완전 암기 단원이라 과락이 될까 봐 걱정됐습니다.. ..

오늘은 이어서 데이터 불균형 해소를 간단한 R코드를 통해 알아보겠습니다. 2022.03.20 - [학회 기록/학회 세션] - 데이터 불균형 해소 데이터 불균형 해소 안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야하는지를 알아보겠습니다. 예를들면 종양의 악성유무를 살펴보면 100명 tnqkrdmssjan.tistory.com 이전 발행 글은 위를 참고하시면 됩니다. 기본 데이터 # 문과(0) 이과(1) set.seed(0320) y = c(rep(0, 15), rep(1, 50)) y = as.factor(y) math = c(rnorm(15, 50, 15), rnorm(50, 70, 12)) eng = c(rnorm(15, 70, 12)..

안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야 하는지를 알아보겠습니다. 예를 들면 종양의 악성 유무를 살펴보면 100명 중 1명이 악성이라고 할 때 어떻게 보면 굉장히 적은 수치이지만 1명의 경우 심각한 상황을 초래하기 때문에 정확히 예측하는 것이 중요하죠. 이때 99명이 종양이 없고 1명이 악성이라 하면 나머지 많은 데이터를 예측할 때 종양이 없다고 예측하면 99%의 정확도를 갖는 상황이 발생할 수 있습니다. 이렇게 차이가 나는 데이터라고 가정하면 어떠한 모형이냐에 따라 다르겠지만 보라색 부분의 y = 1인 값들은 아마도 0으로 분류될 확률이 높을 것입니다. 따라서 우리는 이러한 불균형을 해소하기 위한 2가지 방법을 알아보려 합니다...