일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터분석준전문가
- 이코테
- r
- tableau
- 데이터 전처리
- matplotlib
- 데이터 분석
- 코딩테스트
- Google ML Bootcamp
- 이것이 코딩테스트다
- 딥러닝
- ML
- Python
- SQL
- SQLD
- 시각화
- 머신러닝
- 데이터분석
- pytorch
- sklearn
- 태블로
- pandas
- scikit learn
- 통계
- 파이썬
- ADsP
- IRIS
- 자격증
- 회귀분석
- Deep Learning Specialization
- Today
- Total
목록r (14)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/29Upq/btrznbVianE/7ba8MiRqRlXijQeQCcdFwK/img.png)
오늘은 R을 이용하여 simple linear regression을 알아보겠습니다. 데이터는 wages.Rdata를 사용했습니다. 데이터 불러오기 setwd("경로") load("wages.Rdata") attach(wages) setwd를 통하여 자신의 경로를 설정한 다음 load를 통해 경로 안에 있는 파일을 불러오면 됩니다. attach를 통하여 데이터를 불러옴으로써 data.frame에서 column을 wages$logwage가 아닌 logwage라고 쓸 수 있게 됩니다. 데이터 구조 파악하기 str(wages) >>> 'data.frame':2178 obs. of 2 variables: $ education: num 16.8 15 10 12.7 15 ... $ logwage : num 2.85 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bvuKJ8/btrxrcniPMC/iRBVnDlMZpyC6Y4kic8k61/img.png)
오늘은 R코드를 통해 간단한 예시로 로지스틱 회귀분석과 LDA를 알아보겠습니다. 자료는 R패키지인 ISLR에서 Smarket 데이터를 이용하겠습니다. Smarket 데이터는 2001년부터 2005년까지의 1250일에 걸친 S&P500 주가지수 수익률을 나타낸 데이터입니다. 변수 설명 Year 연도(2001년 ~ 2005년) Lag1 ~Lag5 해당 날짜 1~5일 전의 수익률 Volume 해당 날짜 전날에 거래된 주식 수(단위 : 10억 주) Today 당일의 수익률 Direction 당일 주가 지수 상승 / 하락 여부(UP / DOWN) 데이터 불러오기 library(ISLR) stocks >> [1] "Year" "Lag1" "Lag2" "Lag3" [5] "Lag4" "Lag5" "Volume" "T..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bHQh9Q/btrwwsc884u/DLKhhWU8w2ptqisK5biG41/img.png)
오늘은 이어서 데이터 불균형 해소를 간단한 R코드를 통해 알아보겠습니다. 2022.03.20 - [학회 기록/학회 세션] - 데이터 불균형 해소 데이터 불균형 해소 안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야하는지를 알아보겠습니다. 예를들면 종양의 악성유무를 살펴보면 100명 tnqkrdmssjan.tistory.com 이전 발행 글은 위를 참고하시면 됩니다. 기본 데이터 # 문과(0) 이과(1) set.seed(0320) y = c(rep(0, 15), rep(1, 50)) y = as.factor(y) math = c(rnorm(15, 50, 15), rnorm(50, 70, 12)) eng = c(rnorm(15, 70, 12)..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/qq5EM/btrwonq4QGI/M3GmzbKTGvmFlkWGHPge91/img.png)
안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야 하는지를 알아보겠습니다. 예를 들면 종양의 악성 유무를 살펴보면 100명 중 1명이 악성이라고 할 때 어떻게 보면 굉장히 적은 수치이지만 1명의 경우 심각한 상황을 초래하기 때문에 정확히 예측하는 것이 중요하죠. 이때 99명이 종양이 없고 1명이 악성이라 하면 나머지 많은 데이터를 예측할 때 종양이 없다고 예측하면 99%의 정확도를 갖는 상황이 발생할 수 있습니다. 이렇게 차이가 나는 데이터라고 가정하면 어떠한 모형이냐에 따라 다르겠지만 보라색 부분의 y = 1인 값들은 아마도 0으로 분류될 확률이 높을 것입니다. 따라서 우리는 이러한 불균형을 해소하기 위한 2가지 방법을 알아보려 합니다...
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/coPiI7/btrvOfMrj7q/DjkBNbhVAUdytzNbxyhg3k/img.png)
안녕하세요! 오늘은 선형회귀를 이용한 의료비 예측하는 간단한 예제를 살펴볼게요. 위 파일을 사용할 것입니다. 변수명 변수설명 Age 주 수익자의 연령, 정수(64세 이상은 일반적으로 정부에서 관리하기 때문에 제외) Sex 보험 계약자의 성별, 여성 또는 남성 Bmi 몸무게(kg)을 키(m)의 제곱으로 나눈 값 Children 의료보험이 적용되는 자녀 수/부양가족 수. 정수 Smoker 피보험자의 정기적인 흡연 여부, 예 또는 아니오, 범주형 변수 Region 사는 지역, 범주형 변수 Expenses 종속변수 위의 표가 변수에 관한 설명입니다. 이제 시작해볼까요? 1. 데이터 불러오기 setwd("경로") insurance >> [1] 1338 7 head(insurance) >>> age sex bmi ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/Spk5m/btrtJBRXnhm/diXtBuNoj898h9KfB6oft1/img.png)
안녕하세요. 오늘은 토픽모델링에 대해 알아볼게요. 우선 토픽모델링이란? 토픽 모델링(Topic Modeling)은 전체 내용물에서 일정한 패턴을 발견해 내는 알고리즘 기반 텍스트 마이닝(Text Mining)의 한 형태입니다. 위의 사진을 보면 노란색 박스에 분류된 그룹은 유전과 관련된 단어 핑크색 박스에 분류된 그룹은 생명 초록색 박스는 뇌과학, 하늘색 박스는 컴퓨터과학과 관련됐다고 유추할 수 있습니다! 그렇다면 우리는 R로 구현하여 위와 같이 만들어보겠습니다. 그중 LDA(Latent Dirichlet Allocation)를 활용해볼게요! # 패키지 설치 install.packages("topicmodels") install.packages("tidytext") install.packages("tid..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cnT7on/btrsDansjbt/gKSVyUlLVTbknHkrRObQik/img.png)
안녕하세요! 오늘은 Factor Analysis의 약자인 FA에 대해 알아보겠습니다. 파일은 저번이랑 똑같은 이 파일입니다. 만약 파일 정보가 필요하시다면 2022.02.06 - [분류 전체보기] - [EDA] PCA with R [EDA] PCA with R 오늘은 Principal Component Analysis 일명 PCA에 대해 간단한 예제를 R을 통해 알아보는 시간을 갖겠습니다! 그러기에 앞서 필요한 파일을 첨부하겠습니다. 위 데이터는 주식에 관한 10개 회사의 값입니 tnqkrdmssjan.tistory.com 여기서 확인해주세요! 그럼 시작하겠습니다. ### perfrom factor analysis with 3 factors but without any rotation kval>> Loa..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bkC7fJ/btrsyufTTGM/mKMM68KLKPwbbk8zcPW9M0/img.png)
오늘은 Principal Component Analysis 일명 PCA에 대해 간단한 예제를 R을 통해 알아보는 시간을 갖겠습니다! 그러기에 앞서 필요한 파일을 첨부하겠습니다. 위 데이터는 주식에 관한 10개 회사의 값입니다. 그럼 시작해볼까요? rm(list=ls()) #할당변수 모두 제거 load("stockreturns.RData") #데이터 불러오기 ls() #변수 확인 >>> [1] "stocks" head(stocks) tail(stocks) str(stocks) #구조 파악 >>> 'data.frame':100 obs. of 10 variables: $ comp1 : num 0.44781 0.98811 0.87456 0.7144 0.00535 ... $ comp2 : num 0.0673 1...
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/vEIad/btrsxJQ8tGA/n9rxVzeejyo69WrmwNZC0k/img.png)
안녕하세요! 오늘은 Singular Value Decomposition의 약자인 SVD에 대해 R을 통해 알아보겠습니다. 우선 코딩에 필요한 파일을 올려놨습니다. 그럼 시작해볼게요! load("face.rda") #파일 불러오기 image(t(faceData)[, nrow(faceData):1]) svd1$d #singular value >>> [1] 1.977887e+01 1.513802e+01 1.213935e+01 8.427234e+00 6.200006e+00 [6] 4.936858e+00 4.402278e+00 3.967227e+00 3.743197e+00 3.017167e+00 [11] 2.967196e+00 2.406314e+00 1.899693e+00 1.555837e+00 1.492379e..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/NCgNg/btrr9fcV5CK/Rl61r87pCHT0Ey6gbXGLY1/img.png)
안녕하세요! 오늘은 EDA수업에서 배우는 또 다른 Clustering 기법인 k-means clustering을 R을 통해 알아보겠습니다. 간단한 좌표 설정 set.seed(1234) #rnorm으로 생성된 값 계속쓰기 위해 고정 x >> [1] 3 3 3 3 1 1 1 1 2 2 2 2 points(x, y, col = kmeansObj$cluster, pch = 19, cex = 2) image() 이용하기 par(mfrow=c(1,2)) #그래픽 1행 2열로 보이게 image(t(dataFrame)[, nrow(dataFrame):1], yaxt = "n", main = "Original Data") image(t(dataFrame)[, order(kmeansObj$cluster)], yaxt = ..