일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 자격증
- 데이터분석준전문가
- 데이터 전처리
- 통계
- 이코테
- tableau
- scikit learn
- Deep Learning Specialization
- 이것이 코딩테스트다
- pytorch
- ML
- matplotlib
- ADsP
- 데이터분석
- pandas
- 코딩테스트
- 파이썬
- Google ML Bootcamp
- SQL
- 회귀분석
- 태블로
- SQLD
- 시각화
- r
- 머신러닝
- IRIS
- 데이터 분석
- Python
- sklearn
- 딥러닝
- Today
- Total
목록데이터분석 공부/Python (20)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/coafV4/btrx6qFDzlg/icQev2QxoDRDHVJZbtAMM1/img.png)
안녕하세요! 오늘은 지금까지 그렸던 한 개의 선 그래프나 여러 개의 선 그래프에 텍스트를 삽입하는 것을 알아보겠습니다. 그래프는 전 포스트에 작성한 코드를 그대로 가져올 것입니다. 각각의 그래프에 y값을 보기 쉽게 넣어주도록 할게요. 한 개의 선 그래프에 텍스트 삽입 import numpy as np import pandas as pd import matplotlib.pyplot as plt import random import matplotlib.pyplot as plt plt.rc('font', family = 'AppleGothic') # mac # plt.rc('font', family = 'Malgun Gothic') # window plt.rc('font', size = 12) plt.rc('..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/xvDPb/btrxXLWuuqd/KsjJkEgwFnYCx5qnkocyb1/img.png)
오늘은 한 평면 내에 여러 개의 선 그래프를 그리는 것을 공부하겠습니다. 예제로 2018학년도부터 2022학년도 까지 총 5개년 수능 과학탐구 과목별 응시자 수를 그래프로 그려보겠습니다. 라이브러리 불러오기 import matplotlib.pyplot as plt 한글 오류 기본 설정 plt.rc('font', family = 'AppleGothic') # mac # plt.rc('font', family = 'Malgun Gothic') # window plt.rc('font', size = 12) plt.rc('axes', unicode_minus = False) # -표시 오류 잡아줌 전 포스트에 적어놨던 한글 오류 설정입니다. 수능 과탐 데이터 리스트 # 년도 year = [2018, 2019, ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/coYqMk/btrxHxFls78/kyQy1iT04byrrcNp1IvbA0/img.png)
이번에는 선 그래프를 그렸던 것을 바탕으로 선 그래프의 모양이나 배경을 꾸미는 것을 알아보겠습니다. 라이브러리 불러오기 import matplotlib.pyplot as plt import random x, y 리스트 설정 x = [i for i in range(1, 11)] random.seed(42) y=[] for i in range(1,11): z=random.randint(10,21) y.append(z) print(y) >>> [20, 11, 10, 21, 14, 13, 13, 12, 21, 11] 선 굵기 설정 plt.plot(x, y) plt.show() 이것이 기본으로 나오는 선의 굵기입니다. 선의 굵기를 조금 키워보겠습니다. plt.plot(x, y, linewidth = 12) # p..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bSnfdo/btrxsEd2fcg/xDcT6k76QHLEWU54VWVZLk/img.png)
오늘은 Python에서 Matplotlib을 활용하여 데이터를 시각화하는 방법을 공부하겠습니다. 그럼 시작해볼게요. 라이브러리 불러오기 import matplotlib.pyplot as plt import random 위의 matplotlib이 우리가 공부해 볼 라이브러리이고 밑의 random은 왜 썼는지 밑에서 보여드릴게요. x, y 리스트 설정 x = [i for i in range(1, 11)] random.seed(42) y=[] for i in range(1,11): z=random.randint(10,21) y.append(z) print(y) >>> [20, 11, 10, 21, 14, 13, 13, 12, 21, 11] x에 1부터 10까지 리스트를 생성했고 y에 11부터 20까지 숫자 중..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bJ2uWE/btrwooIJ4of/iWVXkjAbSWhKa83UulW5A1/img.png)
안녕하세요! 이번에는 Python에서 Seaborn을 활용하여 범주형 변수의 시각화를 공부해보겠습니다. 라이브러리 실행 import numpy as np import pandas as pd import seaborn as sns 데이터 불러오기 mpg = sns.load_dataset('mpg') 1개의 범주형 변수에 대한 시각화 sns.countplot(data = mpg, x='origin') countplot은 x나 y에 하나의 범주형 변수만 넣으면 나머지는 개수로 표현됩니다. sns.countplot(data = mpg, y='origin') mpg['origin'].value_counts() >>> usa 249 japan 79 europe 70 Name: origin, dtype: int64 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cph0V6/btrwiyzOiux/yYe6tR5NuAGHzfkMClq190/img.png)
안녕하세요! 오늘은 Python에서 Seaborn을 이용하여 수치형 변수의 시각화를 공부해보겠습니다. Seaborn은 Matplotlib보다 고수준으로 코드도 간단하고 미학적으로도 괜찮습니다. 그렇다면 Matplotlib보다 Seaborn이 좋다는 것일까요? 결론적으로는 두 가지 라이브러리를 다 사용할 줄 알아야 합니다. Matplotlib과 Seaborn을 같이 사용했을 때 Seaborn만을 사용했을 때 보다 더 좋은 결과물을 얻어낼 수 있습니다. 이처럼 결국에는 두 가지 라이브러리를 함께 사용하는 것이 효과적입니다. 그러면 오늘은 Seaborn을 이용하여 시각화를 시작해볼까요? 라이브러리 실행 import numpy as np import pandas as pd import seaborn as sns..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/AJZLv/btrrpEkx73P/k95mFh2LDBEWPeczXh8CZk/img.png)
저번에 다 작성하지 못했던 Pandas 라이브러리를 마무리하려고 합니다! 그럼 시작해볼까요? 5-1. 결측치 여부 확인 df2.isnull() df2.isnull().sum() # 각 열마다 결측치 개수 출력 >>> Name 0 Age 0 Score 0 Score2 2 dtype: int64 5-2. 결측치가 존재하는 행 삭제 df2.dropna(how = 'any') # how = 'all' : 행의 모든 값이 NaN인 경우 삭제 5-3. 결측치 대체 df2.fillna(value = 50.0) # 기본적으로 저장 X df2['Score2'].fillna({'two' : 68.0, 'five': 80.0}, inplace = True) # inplace = True : 저장 df2 6-1. 기술 통계 ..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ccUYbY/btrrqLQPwka/huPmkPHqoqzQfoJgKn7piK/img.png)
오늘은 말씀드린 대로 NumPy에 이어서 Pandas 라이브러리에 대해 알아보겠습니다! Pandas 라이브러리는 대표적인 데이터 분석 라이브러리이며 행과 열로 이루어진 데이터 객체를 만들고 다룰 수 있어 안정적으로 대용량의 데이터를 처리하는 데 매우 편리하다는 장점이 있습니다. 이번에도 마찬가지로 주피터 노트북을 이용했으며 이용하고 싶으시다면 2022.01.22 - [데이터 분석 공부하기/Python] - [Python] Jupyter Notebook 설치 및 실행 [Python] Jupyter Notebook 설치 및 실행 오늘은 간단하게 Anaconda를 설치하여 주피터 노트북을 실행시키는 방법을 알아볼게요! 우선 아나콘다는 수학과 과학 분야에서 사용되는 여러 패키지들을 묶어 놓은 파이썬 배포판이고 ..
안녕하세요! 오늘은 파이썬에서 다차원 배열을 효과적으로 처리할 수 있고 수학 및 과학 연산에 유용한 NumPy 라이브러리에 대해 알아보려고 합니다. 우선 코딩은 주피터 노트북을 활용했습니다! 만약 주피터 노트북을 이용하고 싶으시다면 2022.01.22 - [데이터 분석 공부하기/Python] - [Python] Jupyter Notebook 설치 및 실행 [Python] Jupyter Notebook 설치 및 실행 오늘은 간단하게 Anaconda를 설치하여 주피터 노트북을 실행시키는 방법을 알아볼게요! 우선 아나콘다는 수학과 과학 분야에서 사용되는 여러 패키지들을 묶어 놓은 파이썬 배포판이고 대표적으 tnqkrdmssjan.tistory.com ^^^^ 여기를 눌러주시면 됩니다! 그럼 시작해볼게요~ 1...
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/mR5yG/btrrqa95ElQ/tmQpwOgVQpvRhYKLSA4LXk/img.png)
오늘은 간단하게 Anaconda를 설치하여 주피터 노트북을 실행시키는 방법을 알아볼게요! 우선 아나콘다는 수학과 과학 분야에서 사용되는 여러 패키지들을 묶어 놓은 파이썬 배포판이고 대표적으로 NumPy, Pandas, Matplotlib 등을 비롯한 많은 패키지를 포함하고 있습니다. 최근 데이터 사이언스와 머신러닝 분야에서 파이썬을 사용하기 위해 설치를 하는 추세입니다! 웹 브라우저에서 작성할 수 있고 마크다운 사용으로 코드 및 주석을 깔끔하게 정리할 수 있다는 장점이 있습니다. 그럼 이제 설치하는 법을 알아볼까요? 우선 https://www.anaconda.com/ 에 들어가셔서 컴퓨터에 맞는 OS를 선택하여 다운받습니다. 설치하여 깔게 되면 Anaconda3 라는 폴더가 생성될 것입니다. 안에 보면 ..