본문 바로가기
SW 교육

[2024.08.05] 데이터 분석

by 하루한번토스트 2024. 8. 5.

혼자 공부하는 데이터 분석 p27

데이터분석가

데이터분석가란 프로그래밍 기술을 갖추고 있고, 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람이다.

+해당 비즈니스 문제에 대한 깊은 이해 

 

데이터분석가를 하기 위해서 어떤 것이 필요할까?

데이터 수집->적재->정제->분석->시각화

 

 

데이터 분석을 위한 도구

보통 파이썬, r 사용

 

파이썬의 필수 패키지

1. NumPy넘파이

2. Pandas 판다스

3. MatPlotLib 맷플롯립

4. Scikit-learn 사이킷런

5. SciPy 사이파이

 

데이터 마이닝- 데이터에서 패턴 혹은 지식을 추출하는 작업.

 

! pip install pandas 설치

! pip uninstall pandas 삭제

! pip list 목록 보기

! pip show pandas <-- 버전을 확인해야할때

 

 

 

코렙에 데이터 다운로드하기 : gdown 패키지

패키지 다운로드

! pip install gdown
! pip install chardet

 

 

import후 대출목록을 다운로드후 열어본다.

import gdown

gdown.download('https://bit.ly/3eecMKZ',
               '남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)

with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
    print(f.readline())

 

파일 인코딩 형식 확인하기

import chardet

with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
    d = f.readline()

print(chardet.detect(d))

 

(인코딩: 아주 큰 csv파일을 읽어볼때, 몇줄의 라인만 읽어서 타입을 확인해볼때 사용한다)

 

 

 

데이터프레임 - 표 형식 데이터(행과 열로 구성된 데이터 구조)

시리즈- 동일한 종류가 담긴 1차원 배열

 

 

열 이름 지정

 

 

shape를 이용한 행,열의 개수 알아내기

 

 

기억해놓으면 좋은 함

 

 

#1번 방법
df[] 
# df[행선택] ->> df[:] 슬라이스를 사용한다
# df[열선택] ->> df[ [] ] 리스트를 사용한다

#2번 방법
df.loc[] #df.loc[행범위:열범위} : 라벨 이용

#3번 방법
df.Iloc[] #df.iloc[행범위:열범위} :인덱스 이용
#제외 하고 남은것을 선택하는방법
#Drop()

 

 

둘이 같은 방법

 

3장(p154)

불필요한 데이터 삭제하기

->데이터에서 손상되거나 부정확한 부분은 수정하고, 삭제하고 교체하는 등의 작업을 데이터 정제 라고 한다.

 

날리고 남은거 출력
AA DD삭제

 

inplace= 원본 데이터도 갱신할지 안할지 선택한다.

디폴트값은 False이다.