일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- sklearn
- 이것이 코딩테스트다
- r
- pytorch
- 회귀분석
- 머신러닝
- 데이터 전처리
- Deep Learning Specialization
- 자격증
- 데이터분석
- IRIS
- ADsP
- Google ML Bootcamp
- SQL
- pandas
- 태블로
- 이코테
- 데이터분석준전문가
- 코딩테스트
- Python
- 파이썬
- 데이터 분석
- scikit learn
- ML
- 통계
- matplotlib
- 딥러닝
- 시각화
- SQLD
- tableau
- Today
- Total
목록데이터 분석 (55)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ENfBi/btrrcvgLcKa/WaStwQ8vlxl9EQQ8HkHRn1/img.png)
안녕하세요! 오늘은 데이터를 받아보면 이상치와 결측치가 종종 존재하는 경우를 볼 수 있는데요,, 이때 어떻게 처리해야 하는지를 알려드리겠습니다! 그럼 시작하겠습니다. 이상치(outlier) 란? - 통계적 자료 분석의 결과를 왜곡시키거나, 자료 분석의 적절성을 위협하는 변숫값 # 이상치(outlier) 정제하기 - NA 처리하기 outlier >> 85 만약 결측치 제외한 평균값만 구하고 싶다면? mean(outlier$weight, na.rm=T) #결측치 제외하는 함수 쓰고 평균 >>> 85 all.equal(mean(new_outlier$weight), mean(outlier$weight, na.rm=T)) #같은지 확인 >>> True 2. 결측치 대체하기(평균, 최빈값 등등) #결측치 대체하기 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cvx4YZ/btrrcNVIIrx/oKXXIloIiQWR9BKssxAO7K/img.png)
안녕하세요! 오늘은 R의 패키지인 ggplot2를 이용하여 여러 가지 그래프를 그리는 방법을 알려드리겠습니다! 그럼 시작하겠습니다 함수 내용 geom_point() 산점도 geom_col() 막대그래프 - 요약표(평균) geom_bar() 막대그래프 - 원자료(빈도) geom_line() 선(시계열) 그래프 geom_boxplot() 상자 그림 ggplot2 설치 및 실행 install.packages("ggplot2") library(ggplot2) #ggplot2 실행 library(dplyr) #dplyr 실행 산점도 그리기 # 산점도 그리기 ggplot(data = mpg, aes(x = displ, y= hwy)) + geom_point() 이때 x축과 y축을 조절해서 보고 싶다면? # 축 범위..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/B1S41/btrqRTOwWda/fpr0HEQppEmsBcUXvcetD1/img.png)
오늘은 통계 분석할 때 알아두면 편한 dplyr 패키지를 공부할 거예요! 이때 dplyr을 사용하지 않고 결과를 도출하는 코드와 dplyr을 사용하여 결과를 도출하는 2가지 방법 모두 코드를 올려놓을 테니 비교해 보는 재미도 있을 것 같아요!! 그럼 시작해볼까요? dplyr 함수 기능 %>% 함수 연결 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계량 산출 group_by() 집단별로 나누기 dplyr을 설치하는 방법 # dplyr 설치 install.packages("dplyr") 만약 설치 오류가 난다면 Rstudio를 실행할 때 관리자 권한으로 실행을 누르세요 dplyr을 실행하는 방법 # dplyr 실행 libr..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bwXZot/btrosvYa5eN/BKlOroJHHBEuCZKP37KUwk/img.png)
이번 방학때 SQLD 2022년 첫 시험을 보려고 해요! 제가 보는 시험 일정 보여드릴게요! 같이 신청해요!! 이제 제가 구입한 책을 소개할게요. 인터넷으로 Sqld를 검색하면 제일 많이 뜨는 일명 노랭이 책입니다! 이 책도 ADsP와 같이 전문가 과정과 개발자 과정 둘다 준비할 수 있는데요 저희가 공부할 개발자 과정은 1과목 2과목 이고 1과목 10문제, 2과목 40문제로 구성되어있어요! 합격 기준은 총점 60점 이상이고 과목별 40점 미만 과락입니다. 응시료는 50000원이라고 하네요! 세부 목차 소개와 공부법은 저도 이번에 시험을 보기 때문에 다음 글을 참고해주세요!! 우리 같이 합격해요!
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/buFCAE/btror133dJK/RBLXyQVVEljZrHKhdly9iK/img.png)
이번에 ADsP 2022년 첫 시험을 보려고 하는데요! 제가 보는 시험 일정입니다! 같이 신청하고 공부해요!! 이제 제가 구입한 책을 소개해드리겠습니다. 인터넷 검색했을때 가장 많이 보이는 일명 파랭이 책입니다! 책을 살펴보면 준전문가와 전문가를 둘다 준비할 수 있는데요 준전문가를 준비하는 우리는 1과목 3과목 4과목 만 공부하면 됩니다! 1과목 8문제, 3과목 8문제, 4과목 24문제로 40문제에 서술형 10문제로 구성되어있습니다. 합격 기준은 총점 60점 이상이고 과목별 40% 미만을 취득하면 과락이 됩니다. 세부 목차와 공부법은 저도 이번에 시험을 보기 때문에 다음 글을 참고해주세요!! 우리 같이 합격해요!