일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- tableau
- ADsP
- SQLD
- pytorch
- 딥러닝
- Python
- 데이터분석준전문가
- scikit learn
- 데이터 전처리
- 회귀분석
- 통계
- 머신러닝
- 코딩테스트
- 데이터분석
- 시각화
- 파이썬
- 이것이 코딩테스트다
- 태블로
- Deep Learning Specialization
- sklearn
- matplotlib
- ML
- Google ML Bootcamp
- 이코테
- r
- SQL
- 자격증
- IRIS
- pandas
- 데이터 분석
- Today
- Total
목록자연어처리 (2)
함께하는 데이터 분석

Transformer 2017 NIPS에서 Google이 소개 CNN이나 RNN이 주를 이루었던 연구들에서 벗어난 아예 새로운 모델이고 실제 적용했을 때 큰 성능 향상을 보임 multi-head self-attention을 이용해 sequential computation을 줄여 더 많은 부분을 병렬처리가 가능하며 더 많은 단어들 간의 dependency를 모델링 함 이를 하나의 black box라고 보면 어떤 한 언어로 된 하나의 문장을 입력으로 받아 다른 언어로 된 번역을 출력으로 내놓음 black box를 열어보면 우리는 인코딩 부분, 디코딩 부분 그리고 그 사이를 이어주는 connection들을 보게 됨 인코딩 부분은 여러 개의 인코더를 쌓아 올려 만든 것이고 디코딩 부분은 인코딩 부분과 동일한 개..

안녕하세요. 오늘은 토픽모델링에 대해 알아볼게요. 우선 토픽모델링이란? 토픽 모델링(Topic Modeling)은 전체 내용물에서 일정한 패턴을 발견해 내는 알고리즘 기반 텍스트 마이닝(Text Mining)의 한 형태입니다. 위의 사진을 보면 노란색 박스에 분류된 그룹은 유전과 관련된 단어 핑크색 박스에 분류된 그룹은 생명 초록색 박스는 뇌과학, 하늘색 박스는 컴퓨터과학과 관련됐다고 유추할 수 있습니다! 그렇다면 우리는 R로 구현하여 위와 같이 만들어보겠습니다. 그중 LDA(Latent Dirichlet Allocation)를 활용해볼게요! # 패키지 설치 install.packages("topicmodels") install.packages("tidytext") install.packages("tid..