반응형

Python 4

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 5) 그래프로 시각화, folium

1. 그래프로 시각화하기 1-1. seaborn의 countplot 1-2. 기본 scatter plot을 matplotlib으로 그리기 1-3. hue를 활용하여 '상권업종중분류' 별로 다른 색상을 적용하여 그리기 1-4. hue를 활용하여 구별로 다른 색상을 적용하여 그리기 1-5. hue를 활용하여 시도별로 다른 색상을 적용하여 그리기 2. folium으로 위경도와 주소 데이터를 지도에 표현하기 1. 그래프로 시각화하기 1-1. seaborn의 countplot plt.figure(figsize=(15, 4)) sns.countplot(data=df_seoul, x="시군구명") 1-2. 기본 scatter plot을 matplotlib으로 그리기 df_seoul[["경도", "위도", "시군구명"..

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 4) 데이터 색인, 텍스트 데이터 전처리

1. 데이터 색인하기 1-1. '==' 활용하기 1-2. 2개의 조건 사용하기 : loc 1-3. 연산자를 활용하여 조건 정하기 : &, |, shape 2. 텍스트 데이터 전처리하기 2-1. 텍스트 데이터 색인하기 : str.contains('문구') 2-2. 데이터 제거하기, 리스트 형태로 변형하기 : tolist() 1. 데이터 색인하기 1-1. '==' 활용하기 : copy() df_medical = df[df["상권업종중분류명"] == "약국/한약방"].copy() 만약 특정 값을 바꿀 때, copy를 하지 않고 바꾸면 원본 df값도 같이 바뀌기 때문에 copy를 해 df_medical이라는 변수에 넣는다. 1-2. 2개의 조건 사용하기 : loc df[df["상권업종대분류명"] == "의료"]..

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 3) 수치, 문자열 데이터 요약하기

1. 수치데이터 요약하기 1-1. 데이터의 기초 통계값 알아보기 1-2. 2개 이상의 column 요약하기 1-3. 특정 데이터만 요약하기 2. 문자열 데이터 요약하기 2-1. 중복 제거한 값 보기 2-2. 그룹화된 요약값 보기 1. 수치 데이터 요약하기 1-1. 데이터의 기초 통계값 알아보기 1) 평균값 (mean) df["위도"].mean() 2) 중앙값 (median) df["위도"].median() 3) 최댓값 (max) df["위도"].max() 4) 최소값 (min) df["위도"].min() 5) 개수 (count) df["위도"].count() 6) 요약값 확인 (describe) df["위도"].describe() 결과가 한 번에 나온다. - 25%는 앞에서 1/4 되는 값, 1 사분위수..

[코칭스터디 13기] Data Science 2023 : 2주차 서울 종합병원 분포 확인하기 - 2) 결측치 다루기

목표 : 결측치가 가장 많은 column 10개 삭제하기 순서 1. 결측치 구하기 2. 데이터 프레임 형태로 변환하여 정렬하기 3. 리스트로 만들어 삭제하기 1. 결측치 구하기 1) isnull() null_count = df.isnull().sum() null_count 결측치는 isnull()로 구할 수 있다. sum()으로 결측치의 개수를 세어 null_count에 넣어준다. 2) 시각화하기 이제 결측치를 시각화해주기 위해 plot을 사용한다. 정보가 많고, column명이 길기 때문에 세로 막대형 그래프인 barh()로 그래프를 그린다. null_count.plot.barh(figsize=(5,7)) 2. 데이터 프레임 형태로 변환하여 정렬하기 1) reset_index() df_null_coun..

반응형