머신 러닝[머신러닝 코세라 강의] (11주차) "Problem Description and Pipeline"

머신 러닝

머신 러닝[머신러닝 코세라 강의] (11주차) "Problem Description and Pipeline"

마빈 Marvin 2022. 10. 9. 12:37

Photo OCR

Problem Description and Pipeline

Photo OCR 의 예시로는 사진에서 텍스트를 인식한 후 입력하는 것입니다. 텍스트를 인식한 후 영어 알파벳의 위치를 인식한 후, 각각의 알파벳을 분류합니다. 이러한 과정 (파이프라인)을 여러 엔지니어가 분업할 수 있습니다.

Sliding Windows

Photo OCR 의 텍스트 인식의 전체 과정을 이해하기 전에, 보행자 인식 과정을 먼저 생각해봅시다. Supervised learning 을 통해서 보행자 인식을 할 수 있습니다. 예를 들어, 82 x 36 pixel 크기의 패치 마다 보행자 여부를 인식할 수 있습니다. 패치를 조금씩 움직이면서 (슬라이딩 하면서) 보행자 여부를 인식합니다. 그리고 패치 사이즈를 변화시키면서 보행자 여부를 판단할 수 있습니다. 마찬가지로 Photo OCR 에서 텍스트 인식도 우선 텍스트가 있는지 판단하는 과정을 보행자 여부를 판단하는 과정과 같습니다.

두 번째 스텝은 이미지 패치에서 알파벳을 나누는 구간을 판단하는 것입니다.

Getting Lots of Data and Artificial Data

실제 데이터에서 가상의 데이터 (synthetic data) 를 만듭니다. 이러한 데이터를 만드는 이유는 트레이닝을 위한 가상의 데이터를 만들기 위해서입니다. 또는 실제 데이터를 왜곡시켜 여러 가상의 데이터를 생성할 수 있습니다. 음성 데이터의 경우에는 실제 데이터에 노이즈가 있는 사운드를 삽입할 수 있습니다. 의미 있는 왜곡은 랜덤한 노이즈는 아닙니다.

Ceiling Analysis: What Part of the Pipeline to Work on Next

파이프라인의 여러 ML 과정들 중에 어디에 팀원의 시간을 더 투입해야하는지 판단하기 위한 분석이다. 특정 과정을 개선했을 때, 정확도가 얼마나 올라가는지 확인하고, 이를 비교하여 예측도가 크게 증가하는 과정을 우선순위로 일한다.

'머신 러닝' 카테고리의 다른 글

머신 러닝[머신러닝 코세라 강의] (10주차) "Large Scale Machine Learning" (0)	2022.09.05
머신 러닝[머신러닝 코세라 강의] (9주차) "Anomaly Detection/Recommender System" (이상징후 탐지 / 추천시스템) (0)	2022.08.18
머신 러닝[머신러닝 코세라 강의] (8주차) "Unsupervised Learning" (비지도학습) (0)	2022.08.11
[머신러닝 코세라 강의] (7주차) "SVM (Support Vector Machines" Machine Learning (by Andrew Ng) (0)	2022.06.28
[머신러닝 코세라 강의] (6주차) "알고리즘 선택 가이드라인" Machine Learning (by Andrew Ng) (0)	2022.06.21

현재글머신 러닝[머신러닝 코세라 강의] (11주차) "Problem Description and Pipeline"

데이터 과학과 경제학 PhD