혼자 공부하는 데이터 분석 p27
데이터분석가
데이터분석가란 프로그래밍 기술을 갖추고 있고, 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람이다.
+해당 비즈니스 문제에 대한 깊은 이해
데이터분석가를 하기 위해서 어떤 것이 필요할까?
데이터 수집->적재->정제->분석->시각화
데이터 분석을 위한 도구
보통 파이썬, r 사용
파이썬의 필수 패키지
1. NumPy넘파이
2. Pandas 판다스
3. MatPlotLib 맷플롯립
4. Scikit-learn 사이킷런
5. SciPy 사이파이
데이터 마이닝- 데이터에서 패턴 혹은 지식을 추출하는 작업.
! pip install pandas 설치
! pip uninstall pandas 삭제
! pip list 목록 보기
! pip show pandas <-- 버전을 확인해야할때
코렙에 데이터 다운로드하기 : gdown 패키지
패키지 다운로드
! pip install gdown
! pip install chardet
import후 대출목록을 다운로드후 열어본다.
import gdown
gdown.download('https://bit.ly/3eecMKZ',
'남산도서관 장서 대출목록 (2021년 04월).csv', quiet=False)
with open('남산도서관 장서 대출목록 (2021년 04월).csv') as f:
print(f.readline())
파일 인코딩 형식 확인하기
import chardet
with open('남산도서관 장서 대출목록 (2021년 04월).csv', mode='rb') as f:
d = f.readline()
print(chardet.detect(d))
(인코딩: 아주 큰 csv파일을 읽어볼때, 몇줄의 라인만 읽어서 타입을 확인해볼때 사용한다)
데이터프레임 - 표 형식 데이터(행과 열로 구성된 데이터 구조)
시리즈- 동일한 종류가 담긴 1차원 배열
shape를 이용한 행,열의 개수 알아내기
#1번 방법
df[]
# df[행선택] ->> df[:] 슬라이스를 사용한다
# df[열선택] ->> df[ [] ] 리스트를 사용한다
#2번 방법
df.loc[] #df.loc[행범위:열범위} : 라벨 이용
#3번 방법
df.Iloc[] #df.iloc[행범위:열범위} :인덱스 이용
#제외 하고 남은것을 선택하는방법
#Drop()
3장(p154)
불필요한 데이터 삭제하기
->데이터에서 손상되거나 부정확한 부분은 수정하고, 삭제하고 교체하는 등의 작업을 데이터 정제 라고 한다.
inplace= 원본 데이터도 갱신할지 안할지 선택한다.
디폴트값은 False이다.
'SW 교육' 카테고리의 다른 글
[2024.08.12] 딥러닝 (0) | 2024.08.13 |
---|---|
[2024.08.06] 데이터 처리 (0) | 2024.08.06 |
[2024.08.02] 특성 공학과 규제 (0) | 2024.08.02 |
[2024.08.01] K-최근접 이웃 회귀, 선형 회귀, 다항 회귀, 다중 회귀 (0) | 2024.08.01 |
[2024.07.31] Numpy를 이용한 배열의 처리 , 데이터 전처리 (0) | 2024.07.31 |