본문 바로가기

R

(7)
[R] diamonds dataset 분석 프로젝트 R의 내장 데이터셋인 diamonds 데이터를 기반으로 하여 가설을 세우고 분석하는 프로젝트를 진행했습니다.먼저 diamonds 데이터셋 소개를 하겠습니다.diamonds 데이터셋은 ggplot2 패키지에 속해 있습니다.library(ggplot2)diamonds = as.data.frame(diamonds)dim(diamonds)head(diamonds)str(diamonds)summary(diamonds)총 53940개의 관측치, 10개의 변수로 구성되어 있는 것을 알 수 있습니다.총 10개의 변수 중 문자형 변수와 숫자형 변수는 각각 3개, 7개입니다. 이번 프로젝트에서 설정한 가설은 총 3개로 다음과 같습니다.다이아몬드의 가격 분포는 시각적 특성(cut, color, clarity)에 따라 다르게..
[R] 다변량 자료 분석 (2) : Hotelling T^2 검정 저번 포스팅에서 전처리를 했던 airquality 데이터로 통계 분석을 하겠습니다. 1. 기본 데이터 세팅airquality = na.omit(airquality)airquality$season = ifelse(airquality$Month == 5 | airquality$Month == 9, "non-summer", "su..
[R] 다변량 자료 분석 (1) : airquality 데이터 산점도 기본 R 데이터인 airquality 데이터셋으로 작업하겠습니다. 1. 결측치 제거colSums(is.na(airquality))airquality = na.omit(airquality) Ozone, Solar.R 칼럼에 결측치가 있었고..
[R] 데이터 전처리 및 시각화 (4) Kaggle에 있는 Netflix Movies and TV Shows 데이터 셋으로 전처리 및 시각화를 해보겠습니다. ​ EDA 주제는 다음과 같습니다. ① 컨텐츠 타입 비율 ② 영상물 등급 분포 ③ 제작 국가 분포 ④ 연도별 발매량 분포 ⑤ 핵심 주제 텍스트 https://www.kaggle.com/datasets/shivamb/netflix-shows/code Netflix Movies and TV Shows Listings of movies and tv shows on Netflix - Regularly Updated www.kaggle.com 먼저 데이터를 살펴보겠습니다. setwd('C:\\Users\\32217778\\Downloads\\netflix_titles') ds = read.csv(..
[R] 데이터 전처리 및 시각화 (3) Kaggle에 있는 Life Expectancy 데이터 셋으로 전처리 및 시각화를 해보겠습니다. ​ EDA 주제는 다음과 같습니다. ① 나라별 평균 기대 수명의 분포 ② 평균 기대 수명 상위/하위 5개국 ③ 평균 기대 수명 세계 지도 ④ 연도별 평균 기대 수명 변화 추이 https://www.kaggle.com/datasets/sujaykapadnis/life-expectancy-prediction-dataset 먼저 위 주소에서 데이터를 다운로드한 후 Rstudio에서 csv 파일을 읽습니다. setwd('C:\\Users\\32217778\\Downloads\\life_expectancy') ds = read.csv('C:\\Users\\32217778\\Downloads\\life_expectanc..
[R] 데이터 전처리 및 시각화 (2) Kaggle에 있는 Terrorist Attacks 데이터 셋으로 전처리 및 시각화를 해보겠습니다. ​ EDA 주제는 다음과 같습니다. ① 테러가 가장 많이 발생한 나라 TOP 10 ② 테러 건수 세계 지도 ③ 연도별 테러 건수 변화 ④ 연도별 테러 수단 ⑤ 테러리스트의 사망 원인 ⑥ 사망자 연령 분포 ⑦ 테러와 사망의 상관관계에 대한 t-test https://www.kaggle.com/datasets/rafsunahmad/terrorist-attacks-data-since-1970-2023 먼저 위 주소에서 데이터를 다운로드한 후 Rstudio에서 csv 파일을 읽습니다. setwd('C:\\Users\\32217778\\Downloads\\terrorist_attacks') ds = read.csv..
[R] 데이터 전처리 및 시각화 (1) Kaggle에 있는 Global Video Game Sales and Reviews 데이터셋으로 전처리 및 시각화를 해보겠습니다. EDA 주제는 다음과 같습니다 ① 각 플랫폼 별 발매 게임 수 ② 평점 TOP 10 게임 ③ 지역별 인기 장르 TOP 3 게임 ( North.America, Europe, Japan) ④ 각 지역의 연도별 판매량 변화 추이 ⑤ 지역별 총 판매량 비율 https://www.kaggle.com/datasets/thedevastator/global-video-game-sales-and-reviews?resource=download Global Video Game Sales and Reviews Global Video Game Performance: Sales, Reviews, an..