1주차에 이어서 2주차이다. 3주차는 (일단) 패스하도록 하겠다.
2주차:
총 3시간
빅 데이터와 데이터 마이닝
빅데이터 기초
비즈니스 인사이트를 위한 수집된 대량의 정보를 의미한다. 빅데이터는 엄청난 속도 (velocity) 로 수집된다. 빅데이터의 스케일 (volume) 은 어마어마하다. 빅데이터에는 종류가 다양하다 (variety). 사진, 텍스트 등 다양한 소스에서부터 비롯된다. 데이터의 신빙성 (veracity) 도 높다. 데이터의 가치 (value) 는 고객, 직원, 헬스 등 다양한 분야에서 가치를 가진다. ApacheSpark, Hadoop 은 빅데이터를 분석할 툴이다.
하둡이란 무엇인가?
매우매우 대량의 데이터를 잘게 나누어서 서로 다른 컴퓨터(서버)에 전송한 후에 각자 계산을 한 결과를 하나로 합친다.
(개인적으로 궁금했던 내용이다. 통계학자와는 달리 데이터 과학자는 데이터베이스를 다룰 줄 아는 능력을 필요로하는 것 같다. )
어떻게 빅데이터가 디지털 변환을 이끌어내는가?
빅데이터와 이를 분석할 수 있는 능력을 통해서 회사는 조직을 변환시켰습니다. Chief Data Officer, Chief Information Officer 과도 관련이 있습니다.
(휴스턴 로케츠의 예시가 나오는데, 메이저 리그의 머니볼 같은 느낌의 스토리네요.)
데이터 과학 스킬과 빅데이터
교수님이 계신 뉴욕대 학생들은 주피터 노트북과 AWS 를 사용한다.
(유닉스 등도 해야한다고 한다)
데이터 과학자와 뉴욕대
모든 학생들은 최소한의 프로그래밍을 배운다. 구글은 자신의 페이지 랭킹 알고리즘을 알고 싶어했다. 최근에 하둡이 이러한 방법을 따라했다.
(회사에서 다양한 프로그래밍 스킬을 가진 사람을 원할 수도 있겠구나 싶었다.)
데이터 마이닝
데이터 마이닝을 할 때는 비용-편익에 대한 개념을 숙지하고 있어야 합니다. 본인의 목적에 적합한 데이터를 선정해야 합니다. 데이터 마이닝을 할 때 사전 프로세싱은 중요합니다. raw 데이터가 복잡할 수도 있고 일부 데이터가 누락되어있을 수 있습니다. 이 때 데이터가 랜덤하게 누락된 것이 아니라 시스테믹하게 누락되어 있다면 그 과정을 이해해야 합니다. 사전 프로세싱 이후에는 변수들을 이해할 수 있는 단위의 변수들로 변환해야 합니다. 변수의 종류가 너무 많을 때는 PCA (Principal Component Analysis) 를 사용하기도 합니다. 소득 수준을 상/중/하의 의미 있는 단위로 나누기도 합니다. 또한 데이터 과학자들이 사용할 수 있도록 데이터가 저장되어야 합니다. 데이터 분석을 할 때는 목적에 맞게 parametric (모수 추정 같은 내용인듯합니다), nonparametric (비모수 추정 같은 내용인듯합니다) 또는 머신 러닝 알고리즘 등을 사용합니다. 이 때 데이터 시각화가 도움이 됩니다. 데이터 과학자의 분석 결과를 관련자의 피드백을 통해서 평가하고 결과의 퀄리티를 향상시킬 수 있습니다.
(테스트) 데이터 마이닝에 대한 간단한 과제이다. 본문 내용과 관련되어 있다.
딥러닝과 머신러닝
빅데이터, 데이터 마이닝, 머신러닝, 딥러닝, 뉴럴네트워크의 차이는 무엇인가?
빅데이터는 5V. 데이터 마이닝은 다양한 툴을 통해서 이해하기. 머신러닝은 AI 한 종류로 머신이 자체적으로 문제를 풀 수 있도록 한다. 딥러닝은 머신러닝의 한 종류로 뉴럴네트워크를 이용해 인간의 선택 과정을 시뮬레이트 한다. 뉴럴네트워크는 생명과학의 뉴럴 네트워크에서 빌려왔다. AI 와 데이터 과학은 어떻게 구분하는가? 데이터 과학은 큰 분량의 데이터에서 패턴을 구하고 비즈니스 등에 도움을 주는 것이다. 이 때, AI 의 다양한 모형을 사용할 수 있다. 데이터 과학은 넓은 개념인 반면에, AI 는 컴퓨터가 문제에 대해 스스로 이해하고 풀 수 있도록 하는 개념이다.
뉴럴네트워크와 딥러닝
컴퓨터과학은 실재 (인간 뇌의) 뉴런의 프로세스를 빌려온다. 딥러닝은 더 많은 레이어의 뉴럴 네트워크이다. 덕분에 스피치, 얼굴 인식 등의 일들이 가능해졌다. 뉴럴 네트워크를 배우기 위해서는 선형 대수학 등에 대한 이해가 패키지 사용 전에 선행되어야 한다. 또한, 컴퓨팅을 잘 할 수 있는 방법에 대해 이해해야 한다.
머신 러닝의 적용
추천 시스템, 사기 인식, 예측 등은 머신 러닝의 예입니다. 베이지언, Naive-베이즈 등도 관련되어 있습니다. 오버 샘플링 등에 대한 감각도 있어야 합니다.
회귀식
회귀식은 outcome 에 기여하는 변수들의 기여도를 데이터를 통해 계산할 수 있도록 합니다. 큰 집의 경우가 작은 집 보다 집값이 얼마나 더 큰지, 화장실의 크기에 따라 집값이 얼마나 달라지는 지에 대해서 회귀식과 데이터를 통해서 계산할 수 있습니다.
Hands-on Exercise: Data Science Exploration
IBM 클라우드 사용이 가능하다고 되어 있습니다. 가입을 하다보니 에러 메세지가 나오네요... IBM Watson 스튜디오가 안됩니다...
Error This code is not valid. Check that you entered the correct code from your email, and try again.
다른 강좌들을 보니, Tools for Data Science 수업에서는 IBM Watson 스튜디오를 이용해야 한다고 합니다.
수료증 받는 건 생각하지 말아야 겠다. 필요한 내용들만 정리해두고 머신러닝과 딥러닝 강의를 듣기 위한 기본 쌓기 정도로 활용해야겠다.
굳이 수료증을 받을 필요가 없다면, 3주차 (Data Science in Business) 내용은 생략하겠다. 일단 다른 강의를 들은 후에 수료증을 받을 지 생각해보고 필요하면 돌아와야겠다.
'머신 러닝' 카테고리의 다른 글
[데이터과학 코세라 강의] 데이터 과학 방법론 (0) | 2022.05.19 |
---|---|
[데이터과학 코세라 강의] (2주차) 데이터 과학을 위한 툴(장비) (0) | 2022.05.17 |
[데이터과학 코세라 강의] (1주차) 데이터 과학을 위한 툴(장비) (0) | 2022.05.17 |
[데이터과학 코세라 강의] (1주차) 데이터 과학이란 무엇인가? (0) | 2022.05.16 |
[머신러닝 강의] 코세라 강의 로드맵 (0) | 2022.05.15 |