일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 이것이 코딩테스트다
- SQLD
- 데이터분석준전문가
- r
- Deep Learning Specialization
- 태블로
- 머신러닝
- 데이터 전처리
- 자격증
- IRIS
- 데이터 분석
- 데이터분석
- scikit learn
- ADsP
- SQL
- tableau
- 통계
- 파이썬
- ML
- Google ML Bootcamp
- pandas
- 이코테
- matplotlib
- sklearn
- pytorch
- 시각화
- 딥러닝
- 코딩테스트
- Python
- 회귀분석
- Today
- Total
목록학회 세션 (23)
함께하는 데이터 분석

안녕하세요! 오늘은 데이터가 불균형이어서 우리가 모델링을 할 때 유의미한 결과값을 얻을 수 없을 때 어떻게 대처해야 하는지를 알아보겠습니다. 예를 들면 종양의 악성 유무를 살펴보면 100명 중 1명이 악성이라고 할 때 어떻게 보면 굉장히 적은 수치이지만 1명의 경우 심각한 상황을 초래하기 때문에 정확히 예측하는 것이 중요하죠. 이때 99명이 종양이 없고 1명이 악성이라 하면 나머지 많은 데이터를 예측할 때 종양이 없다고 예측하면 99%의 정확도를 갖는 상황이 발생할 수 있습니다. 이렇게 차이가 나는 데이터라고 가정하면 어떠한 모형이냐에 따라 다르겠지만 보라색 부분의 y = 1인 값들은 아마도 0으로 분류될 확률이 높을 것입니다. 따라서 우리는 이러한 불균형을 해소하기 위한 2가지 방법을 알아보려 합니다...

안녕하세요! 오늘은 선형회귀를 이용한 의료비 예측하는 간단한 예제를 살펴볼게요. 위 파일을 사용할 것입니다. 변수명 변수설명 Age 주 수익자의 연령, 정수(64세 이상은 일반적으로 정부에서 관리하기 때문에 제외) Sex 보험 계약자의 성별, 여성 또는 남성 Bmi 몸무게(kg)을 키(m)의 제곱으로 나눈 값 Children 의료보험이 적용되는 자녀 수/부양가족 수. 정수 Smoker 피보험자의 정기적인 흡연 여부, 예 또는 아니오, 범주형 변수 Region 사는 지역, 범주형 변수 Expenses 종속변수 위의 표가 변수에 관한 설명입니다. 이제 시작해볼까요? 1. 데이터 불러오기 setwd("경로") insurance >> [1] 1338 7 head(insurance) >>> age sex bmi ..

안녕하세요. 오늘은 토픽모델링에 대해 알아볼게요. 우선 토픽모델링이란? 토픽 모델링(Topic Modeling)은 전체 내용물에서 일정한 패턴을 발견해 내는 알고리즘 기반 텍스트 마이닝(Text Mining)의 한 형태입니다. 위의 사진을 보면 노란색 박스에 분류된 그룹은 유전과 관련된 단어 핑크색 박스에 분류된 그룹은 생명 초록색 박스는 뇌과학, 하늘색 박스는 컴퓨터과학과 관련됐다고 유추할 수 있습니다! 그렇다면 우리는 R로 구현하여 위와 같이 만들어보겠습니다. 그중 LDA(Latent Dirichlet Allocation)를 활용해볼게요! # 패키지 설치 install.packages("topicmodels") install.packages("tidytext") install.packages("tid..