일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 자격증
- SQL
- Google ML Bootcamp
- 머신러닝
- r
- sklearn
- 데이터 분석
- matplotlib
- 이것이 코딩테스트다
- 태블로
- tableau
- 통계
- 데이터 전처리
- 이코테
- IRIS
- 회귀분석
- SQLD
- 데이터분석준전문가
- ML
- ADsP
- 딥러닝
- Deep Learning Specialization
- Python
- 코딩테스트
- 파이썬
- scikit learn
- 데이터분석
- 시각화
- pandas
- pytorch
- Today
- Total
목록임베딩 (2)
함께하는 데이터 분석

Positional Encoding 앞서 포스팅한 Transformer① 모델에서 한 가지 부족한 부분은 입력 문장에서 단어들의 순서를 고려하지 않았다는 것 이것을 추가하기 위해 Transformer 모델은 각각의 입력 임베딩에 "positional encoding"이라고 불리는 하나의 벡터를 추가 이 벡터들은 모델이 학습하는 특정한 패턴을 따르는데, 이 패턴은 모델이 각 단어의 위치와 시퀀스 내의 다른 단어 간의 위치 차이에 대한 정보를 알 수 있게 해 줌 이 벡터들을 추가하기로 한 배경에는 이 값들을 단어들의 임베딩에 추가하는 것이 query/key/value 벡터들로 나중에 투영되었을 때 단어들 간의 거리를 늘릴 수 있다는 점 모델에게 단어의 순서에 대한 정보를 주기 위해, 위치 별로 특정한 패턴을..

순환 신경망의 한계 및 개선 방안 RNN은 어느 정도 이상부터는 결과가 한계에 부딪힘 이유는 타임 시퀀스가 늘어나며 역전파 시 하이퍼볼릭 탄젠트 함수의 미분 값이 0 ~ 1 사이의 값이 나오고 여러 번 곱해져 기울기 값이 역전파될 때 타임 시퀀스가 길어질수록 모델이 제대로 학습을 하지 못하는 기울기 소실(vanishing gradient)이라는 현상이 일어남 순환 신경망에서는 활성화 함수를 바꾸는 경우도 있지만 개선 모델인 LSTM과 GRU를 사용 LSTM(long short-term memory) 기존의 순환 신경망 모델에 장기기억을 담당하는 부분을 추가한 것 기존에는 은닉 상태만 있었다면 셀 상태라는 이름을 가지는 전달 부분을 추가 GRU(gated recurrent unit) LSTM보다 간단한 구..