반응형

공공데이터 2

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 2) 결측치 다루기

목표 : 결측치가 가장 많은 column 10개 삭제하기 순서 1. 결측치 구하기 2. 데이터 프레임 형태로 변환하여 정렬하기 3. 리스트로 만들어 삭제하기 1. 결측치 구하기 1) isnull() null_count = df.isnull().sum() null_count 결측치는 isnull()로 구할 수 있다. sum()으로 결측치의 개수를 세어 null_count에 넣어준다. 2) 시각화하기 이제 결측치를 시각화해주기 위해 plot을 사용한다. 정보가 많고, column명이 길기 때문에 세로 막대형 그래프인 barh()로 그래프를 그린다. null_count.plot.barh(figsize=(5,7)) 2. 데이터 프레임 형태로 변환하여 정렬하기 1) reset_index() df_null_coun..

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 1) 공공데이터 로드 및 데이터 미리보기

안녕하세요, 빵감자입니다 :) 2주 차 강의는 '서울 종합병원 분포 확인하기'입니다. 본격적으로 데이터를 내려받아 분석하는 과정을 배우기 시작합니다. + 강의를 들으며 모든 내용을 블로그에 기재하지는 않고, 보충이 필요하다고 생각하는 부분만 정리하려고 합니다. 1. 공공데이터 로드하기 폰트가 선명하게 보이게 하기 위해 'retina'로 설정한다. + 내 컴퓨터에서는 오류남 파일 경로와 파일명을 입력해 불러온다. df.shape을 했을 때 나오는 결과는 (행, 열) 순으로 출력된다. 2. 데이터 미리 보기 2-1. head() head()는 기본적으로는 맨 앞에 있는 데이터 5개 행을 불러온다. 그리고 괄호 안에 넣은 숫자만큼의 행을 불러올 수 있다. 2-2. shift + tab shift + tab을 ..

반응형