머신 러닝

[데이터과학 코세라 강의] (1주차) 데이터 과학이란 무엇인가?

마빈 Marvin 2022. 5. 16. 05:35

 

IBM Data Scientist 과정을 구독했다. 10개의 강의가 있다. 

7일 무료 이용이고 이후 월 $39를 지급해야 한다. 완료 시 수료증을 발급받는다. 

 

 

구독은 어렵지 않다. 클릭하고 신용카드 정보를 기입한다. 나는 이전에 MySQL 과정을 하면서 등록해둔 정보가 있어서 바로 시작되었다. 

 

 

 

1월 26일에 총알같이 완료했는데, 수료증받고 구독 취소하는 법을 몰라서 과금이 두 번 되었다... 수료증을 받더라도 구독 취소를 눌러야 하는가 그랬던 것 같다 (한 번은 그렇다 하더라도 두 번은 좀 그렇다...). 이번에는 누구보다빠르게 번개같이 수료증받고 구독취소를 해야겠다. 

 

그래도 "돈"을 걸면 더 열심히 하게 된다. 물론 그렇다고 무조건 빠르게 하는 것만이 중요한 건 아니다. MySQL 때 일단 답 찾는 일에만 집중을 했더니 공부를 적게 했던 것 같다. 이번에는 메모도 하면서 해봐야겠다. 

 

첫번째 강의(What is Data Science?)로 돌아가자. 

이번 포스트에서는 1주차 (Data Science Topics) 내용을 요약해보아야겠다. 

: 약 총 1시간 30분 (티스토리에 바로 요약 정리, 테스트 문제 풀기 등 포함).

 

실라버스: 

데이터 과학자란 무엇인가, 하둡, 머신러닝, 딥러닝, 회귀식 등을 배운다. 

 

데이터 과학이란 무엇인가? 

데이터 과학은 질문에 대해 답을 하거나 가설을 검정하고, 스토리를 만들어낸다. 

 

데이터 과학 기본

데이터 과학자는 대용량의 데이터의 저장 능력과 컴퓨팅 파워의 발전으로 대두되었다. 데이터 과학자는 회사와 같은 조직이 궁금해하는 질문에 대한 답을 찾고자 한다. 

 

데이터 과학으로 가는 다양한 길

다양한 필드의 사람들이 데이터 과학의 길로 오게 되었습니다. 

 

새로운 데이터 과학자를 위한 조언 

호기심. 결정. 주장. 호기심이 있어야 데이터를 시작하고, 결정력과 주장이 있어야 데이터를 보면서 계속 분석을 나아갈 수 있다. 분석을 바탕으로 대단한 스토리 텔링을 할 수 있어야 한다. 당신은 데이터 과학자로서의 특별한 강점을 찾아야 한다. 강점은 특정 도메인에 대한 이해가 될 수도 있다. 그 후에 분석에 필요한 도구를 배우고 적용한다. 

 

데이터 과학: 21세기에 가장 섹시한 직장

데이터 과학자에 대한 수요가 증가하고 있습니다. 하지만 회사에서 분석에 적절한 인원을 보유하지는 않습니다. 월마트는 캐글 플랫폼을 이용해 크라우드 소싱을 맡기기도 하였습니다. 뉴욕 타임즈에 따르면, 데이터 과학자의 기본급은 약 112,000 $ (우리돈 1억2천만원 정도 될듯하네요) 라고 합니다.

 

(테스트) 월마트, 데이터 과학자 기본급에 대한 질문이 자주 나오네요. 

 

데이터 과학자의 하루

뉴럴 네트워크를 통한 예측합니다. 공공 교통 (public transit) 에 대한 문제를 분석합니다. 공공 교통에 대해 불만을 제기하는 사람들에 대한 이유를 데이터를 통해서 찾습니다. 날씨와 불만에 대한 패턴을 찾아내었습니다. 물론 이러한 패턴 분석 만으로 문제를 해결하지는 못합니다. 

 

오래된 문제, 새로운 문제, 데이터 과학의 해결책

기업은 데이터 과학자를 통해서 문제를 해결하는 최적화된 답을 찾고자 합니다. 

 

데이터 과학 주제와 알고리즘 

회귀식. 뉴럴 네트워크. 데이터 시각화. Nearest neighbor. 

Structured data - 정형 데이터 

Unstructured data - 비정형 데이터

비정형 데이터에서 structure 을 만드는 것이 필요하다. 

회귀식은 상수항과 변수의 증가에 대한 결과값의 변화량을 표시합니다. 

 

클라우드와 데이터 과학

데이터를 클라우드에 저장함으로써 분석과 저장에 필요한 머신을 사용할 수 있습니다. 이는 물리적 시간적 장벽을 넘도록 합니다. 그리고 여러명이 동시에 프로젝트를 공동 수행할 수 있습니다. 

e.g. ApacheSpark

 

좋은 데이터 과학자의 자질은 무엇입니까? 

저자의 데이터 과학자에 대한 정의는 데이터 사이즈와 무관하게 데이터를 분석하여 조직이 직면한 문제에 대한 답을 관련자에게 답할 수 있는 사람입니다. 

다른 사람들은 다양한 정의를 내립니다. ML 을 사용하지 않으면 데이터 과학자가 아니라고 하는 사람도 있습니다. 

Dr Granville 의 정의에 따르는 데이터 과학자는 수백만개의 행의 데이터를 다루고 이를 믿을만한 통계적인 모형으로 분석하는 사람을 말합니다. 

Dr. Patil 에 따르면, 데이터 과학자는 데이터분석을 통해서 스토리 텔링을 하는 사람입니다.

여러 다양한 정의에도 불구하고 데이터 과학자에게는 호기심이 필요합니다. 

 

1주차 후기

내용은 평범했다. 클라우드의 중요성에 대해 강조해주어서 공부할 동기부여가 생겨서 좋았다.