일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- pandas
- sklearn
- 시각화
- matplotlib
- tableau
- ADsP
- 통계
- Deep Learning Specialization
- Python
- 데이터 전처리
- 데이터 분석
- 데이터분석준전문가
- 회귀분석
- Google ML Bootcamp
- 태블로
- r
- 이것이 코딩테스트다
- IRIS
- 이코테
- 파이썬
- pytorch
- 머신러닝
- scikit learn
- 데이터분석
- 자격증
- SQLD
- ML
- SQL
- 코딩테스트
- 딥러닝
- Today
- Total
목록분류 전체보기 (142)
함께하는 데이터 분석
의사결정 나무(Decision Tree) 분류와 회귀 작업, 다중출력 작업도 가능한 다재다능한 머신러닝 알고리즘 최근에 자주 사용되는 강력한 머신러닝 알고리즘 중 하나인 랜덤 포레스트의 기본 구성 요소 1. 의사결정 나무 학습과 시각화 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris['data'][:, (2, 3)] y = iris['target'] 사이킷런의 iris 데이터를 불러오고 X에 PetalLength, PetalWidth y에 꽃의 품종인 Setona, Versicolor, Virginica를 할당 tree_clf = DecisionTr..
파이썬에서 의사결정 나무를 시각화할 때 graphviz 라이브러리를 import 해야 합니다. 이 라이브러리는 추가로 설치해야 하는데 윈도우를 사용하는 사람들의 설치법은 구글링을 하면 많지만 맥을 사용하는 사람은 그 방법으로 했을 때 오류가 많고 안 되는 경우가 많습니다. 그래서 제가 오랫동안 여러 가지 방법을 시도해보고 성공한 아나콘다에서의 설치방법을 알려드리겠습니다. 1. Homebrew https://brew.sh/index_ko Homebrew The Missing Package Manager for macOS (or Linux). brew.sh Homebrew는 mac os에서 라이브러리 설치를 도와줍니다. Spotlight에서 터미널을 검색하여 실행한 후 /bin/bash -c "$(curl ..
이번에는 소프트맥스 회귀를 진짜 맛만 보겠습니다. 정말 간단하게 저번에 봤던 iris 데이터를 가지고 코드만 돌려보는 식으로 진행할게요! 이전의 데이터 설명이나 로지스틱 회귀를 파이썬으로 돌린 포스팅은 2022.08.19 - [학회 세션/파인드 알파] - [Find - A] [Python] 로지스틱 회귀 [Find - A] [Python] 로지스틱 회귀 안녕하세요! 오늘은 로지스틱 회귀모형을 Python으로 돌려보겠습니다. 다른 포스팅에도 개념은 설명되어 있어 간단하게 말하고 넘어갈게요. 로지스틱 회귀는 이진 분류기로 샘플이 특정 클래스 tnqkrdmssjan.tistory.com 여기를 확인하시면 됩니다. 시작할게요! 소프트맥스 회귀 로지스틱 회귀 모델은 여러 개의 이진 분류기를 훈련시켜 연결하지 않고..
오늘은 머신러닝에서 자주 등장하는 앙상블 기법에 대해 알아볼게요! 우선 앙상블(Ensemble)이란 여러 개의 분류기를 생성하여 예측값을 종합하여 보다 정확한 예측값을 구하고 각각의 분류기를 사용했을 때의 단점을 보완해주는 기법입니다. 앙상블 기법에는 대표적으로 Voting, Bagging, Boosting이 있습니다. 이제 각각의 기법을 간단하게 살펴보겠습니다! Voting 보팅에는 Hard Voting과 Soft Voting이 있습니다. Hard Voting은 weak learner들의 예측값을 다수결의 원칙을 사용하여 나타내는 것입니다. 위의 사진을 보면 1을 예측한 분류기가 3개, 2를 예측한 분류기가 1개 이므로 다수결의 원칙에 따라 1로 예측하는 것입니다. 최빈값으로 결정한다고 할 수 있죠. ..
안녕하세요! 오늘은 로지스틱 회귀모형을 Python으로 돌려보겠습니다. 다른 포스팅에도 개념은 설명되어 있어 간단하게 말하고 넘어갈게요. 로지스틱 회귀는 이진 분류기로 샘플이 특정 클래스에 속할 확률을 추정합니다. 추정 확률이 50%가 넘으면 그 샘플이 해당 클래스에 속한다고 예측합니다. 0 이면 음성 클래스, 1이면 양성 클래스로 보통 분류합니다. 이제 Python의 iris데이터를 활용하여 분류해볼게요! 라이브러리 불러오기 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt import sklearn import warnings warnings.filterwarnings('ignore')..
안녕하세요. 오늘은 파인드 알파 학회에서 팀을 짜서 공부한 내용을 정리하는 시간을 가지겠습니다. 한 달에 걸쳐 공부할 책은 Hands-On Machine Learning with Scikit-Learn & TensorFlow 입니다. 이번에는 그중에서도 Chapter 1을 정리하겠습니다. 1. 한눈에 보는 머신러닝 1.1 머신러닝이란? 머신러닝의 공학적인 정의는 "어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다."이다. 예를 들어 스팸 필터라고 한다면 학습하는 데 사용하는 샘플을 training set, 작업 T는 새로운 메일이 스팸인지 구별하는 것, 경험 E는 trainin..
안녕하세요! 오늘은 SQL 최적화 기본 원리에 해당하는 부분을 정리해볼게요. CBO(Cost Based Optimizer) 테이블 및 인덱스 등의 통계 정보를 활용하여 소요될 처리시간 등을 계산하여 가장 효율적일 것으로 예상되는 실행계획을 선택하는 옵티마이저 실행계획 알 수 있는 정보 1) 액세스 기법 2) 질의 처리 예상 비용 3) 조인 순서 설명 1) 실행계획은 SQL 처리를 위한 실행 절차와 방법을 표현한 것 2) 실행계획은 조인 방법, 조인 순서, 액세스 기법 등이 표현됨 3) 동일 SQL문에 대해 실행계획이 다르면 실행 결과도 같음 4) CBO의 실행계획에는 단계별 예상 비용 및 건수 등이 표시 인덱스 1) 기본 인덱스(Primary key)에 중복된 키 값들이 나타날 수 없음 2) 기본 인덱스..
안녕하세요. 오랜만에 블로그에 글을 포스팅합니다! 오늘은 SQL 기본 및 활용에서 기본에 해당하는 부분의 중요한 핵심 내용을 기록해보겠습니다. DCL GRANT, REVOKE DDL CREATE, ALTER, DROP, RENAME, TRUNCATE DML INSERT, UPDATE, DELETE, SELECT TCL ROLLBACK, COMMIT, SAVE POINT UNIQUE : 테이블 내의 중복된 값 x, NULL 입력 가능 PK : 주키로 테이블 당 1개만 생성 가능(UNIQUE & NOT NULL) FK : 외래키로 테이블 당 여러 개 생성 가능(참조 무결성 제약) NOT NULL : 칼럼이 명시적으로 NULL 입력 방지 NULL이란? 모르는 값, 값의 부재, 연산시 NULL로 ON DELET..
안녕하세요. 머신러닝을 돌리기 전 전처리 작업 중 하나인 인코딩에 대해 살펴볼게요. 전 포스트에서 말씀드렸기에 간단하게 설명한다면 인코딩은 문자형 변수를 수치형 변수로 변환해주는 것입니다. 저번 포스팅에서는 Label Encoding을 알아봤고 이번에는 One-Hot Encoding을 살펴볼게요. One-Hot Encoding 머신러닝을 공부하신 분들이라면 한 번씩은 들어보셨을 One-Hot Encoding입니다. One-Hot Encoding은 말 그대로 하나만 Hot하고 나머지는 Cold 한다는 뜻입니다. 새로운 칼럼을 추가하여 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시합니다. 이제 Python을 통해 One-Hot Encoding을 진행해보겠습니다. 라이브러리 불러오기 import ..
안녕하세요. 머신러닝을 돌리기 전 전처리 작업 중 하나인 인코딩을 살펴보겠습니다. 머신러닝 알고리즘은 대부분 문자형 데이터를 이해하지 못하므로 수치형 데이터로 인코딩하는 작업은 거의 필수적이라고 할 수 있습니다. 그래서 오늘은 사이킷런의 대표적인 두 가지 인코딩 방법 중 Label Encoding을 알아보겠습니다. Label Encoding Label Encoding은 어떤 피쳐의 n개의 범주형 데이터를 0 ~ n-1의 수치형 데이터로 변환합니다. 이때 이 변환 값이 수치적 차이를 나타내는 것은 아닙니다. 따라서 선형 회귀 등의 알고리즘에는 적용하는 것은 적합하지 않고 트리 계열의 알고리즘에는 적용해도 괜찮습니다. 이제 Python을 통해 Label Encoding을 살펴보겠습니다. 라이브러리 불러오기 ..