데이터/코칭스터디 13기 DataScience

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 1) 공공데이터 로드 및 데이터 미리보기

빵감자 2023. 10. 14. 18:04
728x90
반응형

안녕하세요, 빵감자입니다 :)

 

2주 차 강의는 '서울 종합병원 분포 확인하기'입니다.

본격적으로 데이터를 내려받아 분석하는 과정을 배우기 시작합니다.

 

+ 강의를 들으며 모든 내용을 블로그에 기재하지는 않고,

보충이 필요하다고 생각하는 부분만 정리하려고 합니다.

 

출처 : https://www.boostcourse.org/study-ds112-2023

 

1. 공공데이터 로드하기

폰트가 선명하게 보이게 하기 위해 'retina'로 설정한다.

+ 내 컴퓨터에서는 오류남

 

파일 경로와 파일명을 입력해 불러온다.

df.shape을 했을 때 나오는 결과는 (행, 열) 순으로 출력된다.

 


2. 데이터 미리 보기

2-1. head()

head()는 기본적으로는 맨 앞에 있는 데이터 5개 행을 불러온다.

그리고 괄호 안에 넣은 숫자만큼의 행을 불러올 수 있다.

 

 

2-2. shift + tab

shift + tab을 누르면 docstring을 볼 수 있다. 공식 문서이다. 

 

 

2-3. info()

info()는 해당 df의 정보를 알려준다.

숫자 차이 나는 것은 결측치 때문이다.

 

 

2-4. column명 보기

column명을 볼 수 있다.

 

여기서 헷갈린다. df를 공부하면서 항상 헷갈리는 것

info는 info()라고 쓰는데, columns는 괄호 없이 그냥 columns로 쓴다.

질문을 드려봐야겠다.

 


 

반응형