일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- pytorch
- 데이터분석
- 데이터 분석
- Google ML Bootcamp
- ADsP
- 통계
- scikit learn
- Python
- 태블로
- SQL
- SQLD
- 데이터 전처리
- 이코테
- 시각화
- matplotlib
- 이것이 코딩테스트다
- 자격증
- tableau
- 파이썬
- IRIS
- 데이터분석준전문가
- 회귀분석
- ML
- 딥러닝
- pandas
- r
- 코딩테스트
- sklearn
- Deep Learning Specialization
- 머신러닝
- Today
- Total
목록임베딩 (2)
함께하는 데이터 분석
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/l94Y5/btrX31HL1M9/OpCHSOMFgLTBf8Bh6wQJe1/img.png)
Positional Encoding 앞서 포스팅한 Transformer① 모델에서 한 가지 부족한 부분은 입력 문장에서 단어들의 순서를 고려하지 않았다는 것 이것을 추가하기 위해 Transformer 모델은 각각의 입력 임베딩에 "positional encoding"이라고 불리는 하나의 벡터를 추가 이 벡터들은 모델이 학습하는 특정한 패턴을 따르는데, 이 패턴은 모델이 각 단어의 위치와 시퀀스 내의 다른 단어 간의 위치 차이에 대한 정보를 알 수 있게 해 줌 이 벡터들을 추가하기로 한 배경에는 이 값들을 단어들의 임베딩에 추가하는 것이 query/key/value 벡터들로 나중에 투영되었을 때 단어들 간의 거리를 늘릴 수 있다는 점 모델에게 단어의 순서에 대한 정보를 주기 위해, 위치 별로 특정한 패턴을..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/b4UKlH/btrMIWKm723/klylY1VglKr50siAM83lXk/img.png)
순환 신경망의 한계 및 개선 방안 RNN은 어느 정도 이상부터는 결과가 한계에 부딪힘 이유는 타임 시퀀스가 늘어나며 역전파 시 하이퍼볼릭 탄젠트 함수의 미분 값이 0 ~ 1 사이의 값이 나오고 여러 번 곱해져 기울기 값이 역전파될 때 타임 시퀀스가 길어질수록 모델이 제대로 학습을 하지 못하는 기울기 소실(vanishing gradient)이라는 현상이 일어남 순환 신경망에서는 활성화 함수를 바꾸는 경우도 있지만 개선 모델인 LSTM과 GRU를 사용 LSTM(long short-term memory) 기존의 순환 신경망 모델에 장기기억을 담당하는 부분을 추가한 것 기존에는 은닉 상태만 있었다면 셀 상태라는 이름을 가지는 전달 부분을 추가 GRU(gated recurrent unit) LSTM보다 간단한 구..