일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Deep Learning Specialization
- 회귀분석
- 데이터 전처리
- 자격증
- 시각화
- pandas
- ADsP
- sklearn
- 머신러닝
- 이코테
- tableau
- 데이터분석
- 데이터분석준전문가
- 파이썬
- ML
- 통계
- IRIS
- r
- 태블로
- 데이터 분석
- scikit learn
- 코딩테스트
- SQLD
- matplotlib
- Google ML Bootcamp
- 딥러닝
- SQL
- 이것이 코딩테스트다
- pytorch
- Python
- Today
- Total
목록데이터 분석 (55)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/b031nc/btrBKpcRtQZ/XHRGVPPllGEyY4kM7Olhw0/img.png)
오늘은 마지막 스케일링인 Robust Scaling에 대해 알아보겠습니다. Robust Scaling Robust Scaling은 데이터 값에서 데이터의 중위수를 뺀 것을 IQR인 Q3 - Q1으로 나눈 것입니다. 통계를 배우다 보면 중위수가 이상치에 강하다는 특징을 배울 것입니다. 이 Robust Scaling 역시 이상치의 영향을 최소화하는 스케일링입니다. Standard Scaling에 비해 넓은 범위로 스케일링되는 특징이 있습니다. 이제 Python을 통해 Robust Scaling을 진행하겠습니다. 라이브러리 불러오기 import numpy as np import pandas as pd import seaborn as sns import sklearn 데이터 불러오기 및 정제하기 mpg = sn..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/XqhdX/btrBNlfQoQZ/w6YRCeDkQtkJSMaHeRpXrK/img.png)
안녕하세요. 오늘은 Scaling 중 하나인 MaxAbs Scaling을 살펴보겠습니다. 바로 시작해볼게요! MaxAbs Scaling MaxAbs Scaling은 데이터의 최대 절댓값이 1, 0이 0으로 스케일링됩니다. 즉, 절댓값이 0에서 1 사이로 매핑되므로 결과적으로 -1에서 1 사이로 스케일링됩니다. Standard Scaling, Min-Max Scaling과 마찬가지로 이상치에 민감하며 앞 2개의 Scaling에 비해 상대적으로 덜 사용됩니다. 이제 Python의 Scikit Learn을 통해 스케일링을 해보겠습니다. 라이브러리 불러오기 import numpy as np import pandas as pd import seaborn as sns import sklearn 데이터 불러오기 및 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/dOaokb/btrBIxhUcqH/KKipkkqahDyM8qcHbmkQ6K/img.png)
저번 시간에 본 Standard Scaling에 이어서 오늘은 Min-Max Scaling을 공부해보겠습니다. 스케일링을 하는 이유는 앞선 포스팅인 2022.05.10 - [데이터분석 공부/ML | DL] - [Scikit Learn] Standard Scaling [Scikit Learn] Standard Scaling 안녕하세요. 오늘은 Numerical feature를 Scaling을 해보겠습니다. Scaling의 여러 가지 방법 중 Standard Scaling을 알아보겠습니다. 우선 Scaling을 하는 이유를 말씀드리겠습니다. 예를 들어 머신러닝을 진행 tnqkrdmssjan.tistory.com 이 포스팅을 참고해주세요! 이제 본격적으로 Min-Max Scaling을 알아보겠습니다. Min-..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/diBpve/btrBHmHxOYS/IW9OIwyK1EEiiPHwhmbap0/img.png)
안녕하세요. 오늘은 Numerical feature를 Scaling을 해보겠습니다. Scaling의 여러 가지 방법 중 Standard Scaling을 알아보겠습니다. 우선 Scaling을 하는 이유를 말씀드리겠습니다. 예를 들어 머신러닝을 진행할 때 종속변수 Y가 토익점수이고 반응 변수 X1은 하루에 영어를 공부하는 시간(단위 : 분) 반응 변수 X2는 모의토익에 응시한 횟수라고 생각해볼게요. 그렇다면 토익 시험이 얼마 남지 않았을 때 하루 6시간을 공부했다고 하면 X1의 값은 360이 되고, 모의토익의 응시 횟수가 10번 정도라고 하면 값의 차이가 너무 크게 나오는 것을 볼 수 있습니다. 이럴 때 반응 변수인 토익점수는 X1인 영어를 공부한 시간에 대해 영향을 크게 받습니다. 반대로 말하면 X2인 모..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/BlogL/btrBxbSxiaX/xeGW8dEFmK1mLJKkJUuXFK/img.png)
안녕하세요. 오늘은 태블로를 이용하여 선 그래프를 그려보겠습니다. 태블로는 날짜 차원에 대해서만 선 그래프를 지원하는 특징이 있습니다. 트리맵을 그렸을 때 사용했던 택배 데이터를 활용하여 선 그래프를 그려보겠습니다. 날짜 차원 날짜 차원은 보라색으로 표시한 것처럼 달력 모양으로 표시되는 특징이 있습니다. 이제 본격적으로 선 그래프를 그려보겠습니다. 선 그래프 그리기 측정값인 매출을 더블클릭하면 막대그래프가 그려집니다. 그다음 날짜 차원이 아닌 문자 차원을 클릭하면 막대그래프가 자동적으로 그려졌죠. 이번에는 날짜 차원인 배송일자를 더블클릭해보겠습니다. 이렇게 자동적으로 선 그래프가 그려집니다. x축이 연 단위로 되어있고 y축은 매출로 이루어져 있습니다. 연도마다 매출의 합계로 선 그래프를 그려준 것입니다...
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bisP1C/btrBvXNDAtL/gYdqMEg0q9hFe1uH5KOKxK/img.png)
안녕하세요. 오늘은 태블로를 이용하여 트리맵을 그려보겠습니다. 누적 막대그래프나 파이 차트가 있는데 트리맵을 그리는 이유를 말씀드리겠습니다. 범주의 개수가 적을 때는 누적 막대그래프나 파이 차트가 그리기 용이합니다. 하지만 범주의 개수가 많을 때는 누적 막대그래프나 파이 차트로 그리기에 난잡하여 보기 쉽지 않습니다. 이럴 때 트리맵을 그리면 보다 보기 쉽게 분류할 수 있습니다. 이전에 사용했던 insurance 데이터는 범주의 개수가 많은 차원이 존재하지 않습니다. 따라서 이번 트리맵을 알아볼 때는 이 데이터를 사용하겠습니다. 태블로 실습을 이용하여 예시를 보여드리겠습니다. 누적 막대그래프 그리기 누적 막대그래프를 그려봤습니다. 제품 분류에 대한 매출의 합계를 표현했습니다. 레이블에는 제품 분류, 합계매..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bUn7S9/btrBq8iw77L/nweto5kJZlBHddEe1ymtg1/img.png)
안녕하세요. 오늘은 태블로를 사용하여 도넛 차트를 그려보겠습니다. 도넛 차트는 파이 차트 2개를 합쳐서 1개의 도넛 차트를 만드는 것입니다. 도넛 차트는 파이 차트와 유사하지만 한 가지 장점은 가운데에 요약정보를 하나 더 추가할 수 있다는 것입니다. 이제 시작해보겠습니다! 도넛 차트 그리기 열을 더블클릭을 하면 위와 같이 값을 입력할 수 있습니다. 여기에 0을 입력하고 엔터를 누릅니다. 그다음 자동에서 파이 차트로 바꾸면 위와 같은 한개의 원이 만들어집니다. 이제 위에 있는 합계(0)를 윈도우는 control, 맥은 command를 누른 다음 옆으로 드래그를 해주면 위와 같이 두 개의 원이 생성됩니다. 파이 차트를 보기 쉽게 표준에서 전체보기로 변경해줍니다. 이제 첫 번째 합계(0)에다 색상에 Regio..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cRez61/btrBrKUVdwf/UH90kUX38JugeWLCzaIJFk/img.png)
안녕하세요. 오늘은 태블로를 사용하여 파이 차트를 그려보겠습니다. 시작해볼게요. 기본 파이차트 이렇게 저번 시간에 한 것처럼 Expenses와 Region을 클릭하면 위와 같이 막대그래프가 그려집니다. 여기서 오른쪽 위의 표현방식에서 파이 차트 모양을 클릭하시면 이렇게 간단하게 파이 차트가 그려집니다. 이제 파이 차트의 크기를 화면에 맞춰보겠습니다. 위의 표준을 전체보기로 바꿔주시면 됩니다. 이제 각종 마크 레이블을 추가하겠습니다. 각종 마크 레이블 추가하기 Expenses를 레이블로 드래그를 하여 간단하게 마크 레이블을 달아주었습니다. 이번에는 지역 이름을 달아주겠습니다. Region을 레이블에 드래그해줬습니다. 지역이 위에 나오는 것이 보기 편하므로 뒤에서 한 번에 바꿔주겠습니다. 이번에는 Expen..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/EyFnB/btrBjZjyuEX/zuT6uF07gcBZ51WSgCavn1/img.png)
안녕하세요. 저번 포스트에서는 막대그래프를 알아봤습니다. 마지막에 누적 막대그래프를 그리긴 했는데 더 다양한 방식으로 누적 막대그래프를 그리고 해석하기 위해 따로 준비를 했습니다. 시작해볼게요. 기본 누적 막대그래프 저번 시간에도 이 정도까지는 그렸습니다. 보험 비용의 합계를 지역별로 나눠주고 추가로 성별로도 나눠준 모습입니다. 이때 범례가 아닌 누적 막대그래프에 성별을 마크 레이블로 표시해주겠습니다. 차원 마크레이블 표시 Sex를 빨간색으로 표시한 레이블에 드래그하면 위와 같이 성별도 마크 레이블로 추가되어 쉽게 구별할 수 있습니다. 이제 합계를 구성 비율로 표시해보겠습니다. 누적 막대그래프 구성 비율로 표시 마크 레이블에 있는 Expenses의 오른쪽 세모를 클릭한 다음 퀵 테이블 계산에서 구성비율을..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/67FmM/btrAWAEwdqg/GojxHYxeSY8rWzy2G4nCZk/img.png)
오늘은 SQL을 통해 단일 행 함수에 대해 알아보겠습니다. 단일 행 함수는 숫자형, 문자형, 날짜형, 형 변환, 일반 함수로 나뉩니다. 표로 요약하여 보여드리겠습니다. 구분 함수 설명 숫자형 함수 abs(숫자) 절댓값 반환 round(숫자, n) 소수점 n자리까지 반올림 sqrt(숫자) 양의 제곱근 값 반환 문자형 함수 lower(문자) / upper(문자) 소문자 / 대문자 반환 left(문자, n) / right(문자, n) 왼쪽 / 오른쪽 n만큼 반환 length(문자) 문자수 반환 날짜형 함수 year / month / day 연 / 월 / 일 반환 date_add(날짜, interval) 날짜에 interval만큼 반환 datediff(날짜a, 날짜b) 날짜a - 날짜b 일수 반환 형변환 함수 ..