일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Google ML Bootcamp
- r
- Deep Learning Specialization
- ML
- 머신러닝
- 이것이 코딩테스트다
- 데이터분석
- 딥러닝
- SQL
- SQLD
- 통계
- 데이터 전처리
- matplotlib
- 시각화
- sklearn
- tableau
- 자격증
- Python
- 데이터분석준전문가
- scikit learn
- 데이터 분석
- 태블로
- 파이썬
- IRIS
- pandas
- 이코테
- pytorch
- 회귀분석
- 코딩테스트
- ADsP
- Today
- Total
목록dplyr (3)
함께하는 데이터 분석
안녕하세요! 오늘은 데이터를 받아보면 이상치와 결측치가 종종 존재하는 경우를 볼 수 있는데요,, 이때 어떻게 처리해야 하는지를 알려드리겠습니다! 그럼 시작하겠습니다. 이상치(outlier) 란? - 통계적 자료 분석의 결과를 왜곡시키거나, 자료 분석의 적절성을 위협하는 변숫값 # 이상치(outlier) 정제하기 - NA 처리하기 outlier >> 85 만약 결측치 제외한 평균값만 구하고 싶다면? mean(outlier$weight, na.rm=T) #결측치 제외하는 함수 쓰고 평균 >>> 85 all.equal(mean(new_outlier$weight), mean(outlier$weight, na.rm=T)) #같은지 확인 >>> True 2. 결측치 대체하기(평균, 최빈값 등등) #결측치 대체하기 ..
안녕하세요! 오늘은 R의 패키지인 ggplot2를 이용하여 여러 가지 그래프를 그리는 방법을 알려드리겠습니다! 그럼 시작하겠습니다 함수 내용 geom_point() 산점도 geom_col() 막대그래프 - 요약표(평균) geom_bar() 막대그래프 - 원자료(빈도) geom_line() 선(시계열) 그래프 geom_boxplot() 상자 그림 ggplot2 설치 및 실행 install.packages("ggplot2") library(ggplot2) #ggplot2 실행 library(dplyr) #dplyr 실행 산점도 그리기 # 산점도 그리기 ggplot(data = mpg, aes(x = displ, y= hwy)) + geom_point() 이때 x축과 y축을 조절해서 보고 싶다면? # 축 범위..
오늘은 통계 분석할 때 알아두면 편한 dplyr 패키지를 공부할 거예요! 이때 dplyr을 사용하지 않고 결과를 도출하는 코드와 dplyr을 사용하여 결과를 도출하는 2가지 방법 모두 코드를 올려놓을 테니 비교해 보는 재미도 있을 것 같아요!! 그럼 시작해볼까요? dplyr 함수 기능 %>% 함수 연결 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계량 산출 group_by() 집단별로 나누기 dplyr을 설치하는 방법 # dplyr 설치 install.packages("dplyr") 만약 설치 오류가 난다면 Rstudio를 실행할 때 관리자 권한으로 실행을 누르세요 dplyr을 실행하는 방법 # dplyr 실행 libr..