데이터 과학 커리어 (feat. 경제학)

[근황] 여름방학, 학기시작, 그리고 취업 준비

W[더블유] 2022. 10. 3. 22:20

 

박사과정의 마지막 년차라 정신없이 보내고  있다. 티스토리에 작성한 글을 살펴보니, 8월달에 머신러닝 코세라 강의 8주차 (지도학습) 포스팅을 마지막으로 약 두 달 가까이 포스팅을 챙기지 못했다. 그동안 뭐하느라 정신이 없었을까 싶어 8월과 9월의 일기를 다시 읽어보았다. 지도교수님이랑 박사 잡마켓 논문 작업을 주로 하고, 그 과정에서 생긴 이론적으로 내가 궁금했던 내용들을 혼자 최대한 모델링해보고 (잡마켓 논문에는 반영되지 않을듯 하지만 좋은 연습이었던...), 테크 회사 취업 관련해서 정보를 찾아보았다. 

 

Photo by Priscilla Du Preez on Unsplash

 

간간히 여름 방학 때 글을 올리긴 했는데, 티스토리에 공개한 포스트는 A/B 테스팅 관련 책의 내용이 가장 많고, 머신러닝 공부하는 기록도 종종 올리고, 간간히 구글의 파이어베이스를 이용한 개발이나 구글 옵티마이즈를 이용한 실험 내용이 있었다. 물론 구글 옵티마이즈 실험이 성공적이지는 않았지만 기록을 남겨두고 싶었다. 비공개 포스트로는 리액트 연습한 후에 새롭게 적용하는 내용을 적어보았다. 

 

방학 때 한국 들어가서 사람들 만나고 재밌었다. 부모님도 오랜만에 뵙고 친구들도 간간히 만나고 그랬다. PAP 에 데이터 분석하시는 분들도 스터디 이후에 만나뵐 수 있어서 좋았다. 공부는 온라인으로 함께 했는데 오프라인으로 뵐 수 있어서 좋았다 ㅎㅎㅎ 한국에서 현업에 있는 분들이랑 만나볼 수 있어서 좋았다. 인과추론이나 실험이라는 공통 관심사가 있어서 대화할 때 재밌었던 것 같다 ㅎㅎㅎ 

 

학기를 8월 3째주에 시작하는데, 9월 중순까지 정신없이 논문 고치고 네트워크 관련된 내 잡마켓 논문을 작성하는 과정에서 이론적인 부분을 스스로 다른 논문들 보면서 공부를 하고 모델링을 최대한 해보았다. 컴퓨터 공학에 알고리즘 공정성 (Algorithm Fairness) 분야와 관련된 NeurIPS 워크샵에 내보려고 포맷이나 연습을 해보았는데, 내 이해가 명확하지 않은 부분이 있어서 제출하지는 않았지만 즐겁게 했던 것 같다. 학교 내에서 분반수업의 효과처럼 동료 효과 (peer effect) 에 대한 연구와 링크딘과 같은 네트워크 서비스에서 추천 (Recommendation System) 의 효과를 분석하는 메커니즘이 비슷하지 않을까 생각이 든다. 

 

링크딘/미디엄에 팔로워 수도 많고 활동도 많이 하는 월마트 데이터 과학자와 1:1로 30분 정도 이야기할 기회가 생겼다. 약 2년에 걸쳐서 구직 활동을 했다고 해서 놀랐다. 경제학 박사는 졸업 전년도 8~9월에 시작해서 짧으면 약 4개월 길면 약 9~12개월 (여름방학까지) 정도 걸리기도 하고 그 분이 읽어보라고한 미디엄 글들의 리스트가 1년이 안 되서 그렇게 생각했다. 파이썬 같은 코딩 기초가 부족해서 잡서치 중에 잠시 중단하고 공부부터 다시 해서 그렇게 길어졌다고 한다. 링크딘으로 사람들을 거의 100명 정도 만나고 그 후에 추천을 받았다고 하는데 정말 시간이 오래 걸리겠구나 싶었다. 미국 테크 회사는 특히 추천을 받지 않으면 서류 과정에서 성공하기가 그리 쉽지 않은 것 같다. 경제학 박사는 경제학 박사를 뽑고자 하는 회사의 경우에는 교수님의 추천서 3장을 보통 요구하기 때문에 이러한 부분들이 시스템적으로 되어 있는 것 같다. 인더스트리에서는 본인이 스스로 회사마다 추천서를 구해야 한다. 그래서 네트워킹에 노력이 많이 걸린다... 11월 초에 NABE 라는 경제학 박사들의 연례 행사격인 테크 컨퍼런스가 있는데 미리 프로젝트도 해두고 참가할만한 사람들에게 연락도 해보아야 겠다. 

 

그 분이 추천하고 구직에 효과가 있다고한 내용은 미디엄 블로그 글쓰기이다. 평소에도 해야지 했고 티스토리 블로깅과 PAP 도 블로깅을 훈련하는 과정인데 미디엄에 영어로 본격적으로 작성해봐야겠다. 인과추론, Causal ML, 매칭, 네트워크, 경제학, 그외 (데이터 베이스, 소프트웨어 엔지니어링 등)에 대해 다룰 예정이다. 인과추론은 PAP 에서 공부하면서 정리했던 내용들에 실무에 더 밀접한 예시랑 파이썬 코드도 함께 보여줄 수 있도록 해야겠다. Causal ML 은 이번 기회에 깊게 공부하고 정리해두어야겠다. 매칭이랑 네트워크와 그 외 경제학적인 내용들이 테크 회사의 데이터를 분석할 때 어떻게 도움이 될 수 있을까 고민해보고 정리하고자 한다. 하는 과정에서 티스토리와 PAP 에도 올릴 수 있도록 md 파일 형태의 한국어 버젼으로도 만들어두어야겠다. 

 

AWS 에서 아마존 S3, Glue, Athena 로 데이터를 저장하고, 크롤링한 후에 SQL 을 적용할 수 있는 단계까지 만들었다. 아테나에서 SQL 을 할 때 아직 JOIN 은 계정 허가 관련되서 오류가 나는데 왜 그런지는 찬찬히 살펴보아야겠다. 이번에 약 20GB, 12GB 데이터를 S3 에 저장하고 지역단위로 데이터를 추출해서 분석가능한 형태로 만들어볼 계획을 가지고 있다. 그러면 구직할 때 관련해서 인터뷰어가 질문하면 프로젝트와 연계해서 설명을 할 수 있을 것 같다. 

 

그리고 HTML, JavaScript, 파이어베이스로 간단한 블로그를 만들고, AB 테스팅과 추천 시스템을 만들어볼 계획을 가지고 있다. 이전에 만든 해빗트래커는 조건문을 만들면 동작이 매끄럽지 않은 경우가 있어서 리액트 배워서 하려고 했는데, 리액트를 새롭게 적용하면서 하기에는 시간이 부족한 것 같다. 그래서 아쉬운대로 이전에 해봤던 경험을 기반으로 해보려고 한다. 우버의 Senior Applied Scientist (Freight) 포지션의 경우에는 알고리즘 관련 프로토타입을 만들어본 경험을 우대사항에 있어서 ("Experience in algorithm development and prototyping") 나를 다른 지원자와 구분시키기 위해서는 필요할 것 같다. 

 

논문 작업도 추후에 링크딘/메타 사람들에게 연락할 때 필요해서 지도교수님께서 자주 코멘트 해주실 때 수정하고 있다. 드래프트는 어느 정도 썼는데, 조금 더 다듬으면 사람들에게 보여줄만할 것 같다.