데이터 분석과 데이터 과학
데이터 분석(Data Analysis)은 유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정 이라고 정의한다. 현대 사회에서 데이터 분석은 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용되는 경향이 있다.
데이터 분석과 함께 자주 언급되는 용어는 데이터 과학이다. 대부분 데이터 분석과 데이터 과학을 동일하게 취급하지만, 두 용어를 분리해서 비교해 보면 데이터 과학은 통계학(statistics) 데이터 분석, 머신러닝(machine learnning), 데이터 마이닝(data mining)등을 아우르는 큰 개념으로 볼 수 있다.
데이터 과학: 머신러닝, 통계학, 데이터 분석, 데이터 마이닝
데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다. 데이터 과학을 활용해서 소프트웨어나 제품을 개발할 수 있지만 이것이 전부는 아닙니다. 또 데이터 과학이 통계학과 관련이 많다지만 통계학 자체는 아니며, 학술적인 분야 또한 아닙니다. 멋진 그래프를 그리기도 하지만 이것이 데이터 과학의 전부는 아닙니다. 오히려 데이터 과학은 이 모든 것을 포함합니다. 데이터 과학을 하려면 프로그래밍, 통계학, 시각화와 더불어 비즈니스 감각을 갖추어야 합니다.
데이터 과학자 Ji Li
데이터 분석은 올바른 의사 결정을 돕기 위한 통찰(insigjt)을 제공하는 데 초점을 맞추고,
데이터 과학은 한 걸음 더 나아가 문제 해결을 위한 최선의 솔루션(solution)을 만드는 데 초점을 맞춘다.
특징 | 데이터 분석 | 데이터 과학 |
범주 | 비교적 소규모 | 대규모 |
목표 | 의사 결정을 돕기 위한 통찰을 제공하는 일 | 문제 해결을 위해 최선의 솔루션을 만드는 일 |
주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
빅데이터 | 사용 | 사용 |
통계적 관점에서 보면 데이터 분석을 크게 세 가지로 나눌 수 있다.
- 기술 통계(descriptive statistics): 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법
- 탐색적 데이터 분석(EDA): 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법
- 가설검정(hypothesis testing):주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법
데이터 분석가
데이터 분석가는 프로그래밍, 수학 및 통계, 도메인 지식(비즈니스 문제에 대한 전문 지식)이 모두 필요 하다.
데이터 분석가의 작업 과정은 데이터 수집, 데이터 처리, 데이터 정제, 데이터 분석, 모델링까지 포함되어있다. 좁은 의미로는 탐색적 데이터 분석, 가설검정 등을, 넓은 의미로는 데이터 수집부터 모델링까지를 말한다.
데이터 분석을 위한 도구
데이터 분석을 도와주는 도구란 어떤 종류의 소프트웨어를 말한다.
- 프로그래밍 언어: Python, R / 데이터가 데이터베이스 형태로 있다면: SQL
- 프로그래밍 환경: Google Colab
- 파이썬 필수 패키지(라이브러리): Numpy, Pandas, Matplotlib, Scipy(넘파이 기반으로 구축된 수학과 과학 계산 전문 패키지로 미분, 적분, 확률, 선형대수, 최적화 등을 알고리즘으로 구현함), Scikit-learn(독보적인 머신러닝 패키지로 넘파이와 사이파이에 크게 의존)
데이터 마이닝과 머신러닝
데이터 마이닝은 데이터에서 패턴 혹은 지식을 추출하는 작업을 말한다. 머신러닝, 통계학, 데이터 베이스 시스템과 관련이 많다. 이러한 패턴과 지식은 사람이 의사 결정을 내리기 위해 활용된다.
머신러닝은 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술이다. 딥러닝도 머신러닝 알고리즘의 한 종류이다. 머신러닝은 데이터 마이닝과 다르게 규칙이나 패턴을 사용하는 주체가 사람이 아닌 컴퓨터이다. 데이터 마이닝 알고리즘은 비교적 규칙을 만드는 과정이 투명한 데 비해 머신러닝 알고리즘은 마치 블랙박스처럼 결정이 내려진 이유를 알기가 어려운 경우가 많다.
머신러닝으로 학습한 소프트웨어 객체를 모델(model)이라고 부른다. 데이터 과학자가 하는 일은 데이터를 분석하고, 이런 모델을 만드는 것.
즉, 좋은 데이터가 준비되어 있다면 머신러닝 모델을 만드는 과정은 비교적 쉽다. 하지만 데이터가 엉망이라면 아무리 알고리즘이 좋아도 제대로 동작하는 모델을 만들 수가 없다.
확인 문제
Q. 다음 중 데이터 분석과 가장 거리가 먼 분야는 무엇인가?
- 데이터 과학
- 디자인 패턴
- 통계학
- 머신러닝
Q. 다음 중 데이터 분석에 사용하는 파이썬 패키지가 아닌 것은 무엇인가?
- 넘파이
- 판다스
- 사이파이
- 플라스크
답글 남기기