일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ADsP
- 데이터분석
- 이것이 코딩테스트다
- 시각화
- r
- pandas
- 태블로
- 회귀분석
- tableau
- 통계
- 딥러닝
- 데이터 분석
- IRIS
- 파이썬
- scikit learn
- matplotlib
- Python
- 데이터 전처리
- 데이터분석준전문가
- 코딩테스트
- 이코테
- SQLD
- Google ML Bootcamp
- pytorch
- 머신러닝
- sklearn
- Deep Learning Specialization
- SQL
- ML
- 자격증
- Today
- Total
목록분류 전체보기 (142)
함께하는 데이터 분석

교차검증과 하이퍼파라미터 튜닝은 머신러닝 모델의 성능을 높이기 위해 사용하는 기법 교차검증 학습과 검증을 위해 train set, validation set, test set으로 데이터를 나눔 하지만 이러한 방법은 overfitting에 취약할 수 있고 데이터의 개수가 적을 때 어려움이 있음 그리고 고정된 train set와 test set으로 평가를 하다 보면 test set에서만 최적의 성능을 발휘하도록 편향될 수 있기에 이 문제를 해결하기 위해 나온 것이 교차검증 raw 데이터가 충분하지 않을 때 사용하는 방법이 k-fold cross validation 가장 보편적으로 사용되는 교차검증 기법으로 train set를 k개로 분할하여 1개의 validation fold를 나머지 k-1개의 traini..

이번에 IBK 동계 체험형 인턴에 디지털 직무로 지원해서 합격한 후기를 적어보려 합니다 운이 좋아 한번에 합격해서 제 말이 정답일리는 없겠지만 도움이 되고자 작성해 봅니다 자소서+AI 역량검사 우선 서류전형에는 자소서랑 AI 역량검사가 있습니다 1. 본인에게 중요한 가치는 무엇이며, 그러한 가치를 바탕으로 IBK에 지원한 이유를 구체적으로 기술하여 주십시오 2. 본인의 인생에서 창의성을 발휘하거나 도전적인 자세로 문제를 해결한 경험을 설명하고, 이러한 경험을 입행 후 어떻게 활용할 수 있을지 구체적으로 기술하여 주십시오 3. 팀을 이루어 협업을 하면서 결과적으로 성공 또는 어려움을 극복했던 경험을 기술하고, 그러한 경험을 통해 본인이 변화된 점을 구체적으로 기술하여 주십시오 4. 디지털기획, 빅데이터, ..

ELECTRA의 생성자와 판별자 이해하기 생성자 MLM 태스크 수행 15% 확률로 전체 토큰을 마스크 된 토큰으로 교체, 생성기에서 마스크 된 토큰을 예측하도록 학습 진행 입력 토큰이 X=[x1, x2, ... xn] 일 때 h_G(X)=[h1, h2, ... hn]을 생성기를 통해 얻은 각 토큰의 표현 이제 마스킹한 토큰에 대한 표현을 소프트맥스 함수를 갖고있는 피드포워드 네트워크 분류기에 입력 후 토큰에 대한 확률분포 결과를 얻음 'The chef cooked the meal'이라는 문장을 입력하고 일부 토큰에 대해 마스킹 작업을 수행한 후 생성기에 입력하면, 생성기는 사전에 있는 각 단어의 확률 결과를 출력 xt를 t 위치의 마스크된마스크 된 단어라고 하면, 생성자는 소프트맥스 함수를 적용해 사전의..

Markov decision processes Markov process 파트에서는 RL(Reinforcement Learning) 문제를 해결하는 데 사용되는 방법으로 이동을 가능하게 하는 RL의 이론적 토대를 익힐 것 이 파트는 책의 나머지 부분을 이해하는 데 중요하며 RL에 익숙해지는 것을 보장 먼저 방금 논의한 formalisms(reward, agent, actions, observations, and environment)의 수학적 표현과 개념을 소개하고, 이것을 기초로 하여 우리는 state, episode, history, value, gain을 포함한 RL언어의 2차적 개념을 소개하는데, 이는 책의 후반부에서 다른 방법을 설명하는데 반복적으로 사용됨 그리고 Markov decision p..

라이브러리 불러오기 import pandas as pd import seaborn as sns Seaborn을 활용하여 데이터 불러오기 mpg = sns.load_dataset('mpg') mpg.head() mpg=mpg.drop(columns='name') mpg.head() mpg['origin'].value_counts() >>> usa 249 japan 79 europe 70 Name: origin, dtype: int64 usa, japan, europe 3개의 값으로 origin 칼럼이 구성되어있음 get_dummies() pd.get_dummies(mpg) get_dummies()를 사용하여 간단하게 One-Hot Encoding을 한 것을 확인할 수 있음 결측 값이 존재한다면 dummy_..

생성적 적대 신경망이란 생성적 적대 신경망(generative adversarial network) GAN은 심층 신경망의 발전에 힘입어 2014년 처음 소개된 학습 방식 gernerative(생성적)는 기존의 분류 모델들이 하던 역할은 데이터에서 특성들을 뽑아내고 이를 통해 데이터를 구분하는 것과 달리 생성 모델들은 데이터 자체를 생성해 냄 adversarial(적대적)는 생성 네트워크와 구분 네트워크 간의 상반되는 목적 함수로 인해 적대성이 생기게 되는데 예를 들면 위조지폐를 만드는 사람(생성 네트워크)과 위조지폐 감별사(구분 네트워크)가 있고 처음에는 쉽게 감별이 되겠지만 감별사를 속이는 것을 목표로 계속 학습하고 생성하다 보면 점점 감별사가 구분하기 어려운 수준까지 생성. 이때 위조지폐 생성자는 ..

정규화 학습 데이터에서는 잘 동작하는데 테스트 데이터에서는 학습이 제대로 안 된다면 단순히 오버피팅 문제가 아니라 두 데이터의 분포가 달라서인 경우도 존재 왼쪽이 학습 데이터 오른쪽이 테스트 데이터라 하면 학습 시 결과가 잘 나오던 모델도 테스트 시에는 결과가 좋지 않게 나올 수밖에 없을 것임 또한 학습 시에도 데이터 간의 분포가 다르다면 각 분포에 맞춰 변수가 업데이트될 테니 그 데이터를 그대로 쓰면 학습조차 제대로 안될 것임 이럴 때 필요한 것이 정규화(normalization) 데이터를 정규화 하는 방법은 여러가지가 있는데 대표적인 방법으로 표준화(standardization)가 있음 표준화는 데이터에서 평균을 빼고 표준편차로 나눠주는 과정을 거치는데 이렇게 되면 평균은 0, 분산은 1이 되어 데이..

학습률 적절한 모델, 적절한 초깃값을 설정했음에도 학습률에 따라 모델의 학습이 달라짐 학습률은 손실에 대한 가중치를 구하고 그 값과 학습률을 곱해서 변수들을 업데이터 하는데에 사용됨 학습률이 너무 높다면 업데이트 방향이 맞아도 너무 크게 업데이트 되고, 너무 낮다면 지엽적인 공간에서의 극솟값에만 도달하므로 전체 손실 공간에서의 극솟값에 도달할 수 없게 됨 따라서 적절한 학습률을 찾아야 모델이 학습을 잘하고 전체 손실 공간에서 극솟값을 찾을 수 있음 보통 실무에서는 초기에 비교적 높은 학습률로 시작하여 점차 학습률을 낮추는 전략을 취함 하지만 이 방법이 정석은 아니고 오히려 배치 사이즈를 늘리는 게 더 좋다는 연구도 있음 학습률을 점차 떨어뜨리는 방법을 학습률 부식이라고 하는데 이와 관련된 파이토치 함수들..

초기화 모델을 학습할 때 주어진 입력과 결과, 그리고 정답 값을 통해 가중치를 학습하게 됨 최적의 가중치가 존재한다고 가정하면 그 가중치 역시 어떠한 값이기 때문에 그 최적의 값과 가까운 지점에서 시작할수록 빠르게 수렴할 수 있을 것 하지만 최적의 지점 자체가 우리가 모르는 어떤 목푯값이기 때문에 근처에서 시작한다는 말 자체가 성립할 수 없음 대신 모델이 학습되는 도중에 기울기 소실 현상이나 기울기 과다와 같은 현상을 겪지 않게 하거나 손실 함수 공간을 최적화가 쉬운 형태로 바꾸는 방법을 택함 이러한 방법 중 하나로 가중치의 초기화(initialization)가 있고 그 중 대표적인 방법으로 Xavier Glorot 초기화와 Kaiming HE 초기화가 있음 Xavier Glorot 초기화 논문 : ht..

RNN 모델 구현 import torch import torch.nn as nn import string import random import re import time, math num_epochs = 2000 print_every = 100 plot_every = 10 chunk_len = 200 hidden_size = 100 batch_size = 1 num_layers = 1 embedding_size = 70 lr = 0.002 필요한 하이퍼 파라미터를 지정 # import 했던 string에서 출력가능한 문자들을 다 불러옴 all_characters = string.printable # 출력가능한 문자들의 개수를 저장 n_characters = len(all_characters) print(..