Photo OCR
Problem Description and Pipeline
Photo OCR 의 예시로는 사진에서 텍스트를 인식한 후 입력하는 것입니다. 텍스트를 인식한 후 영어 알파벳의 위치를 인식한 후, 각각의 알파벳을 분류합니다. 이러한 과정 (파이프라인)을 여러 엔지니어가 분업할 수 있습니다.
Sliding Windows
Photo OCR 의 텍스트 인식의 전체 과정을 이해하기 전에, 보행자 인식 과정을 먼저 생각해봅시다. Supervised learning 을 통해서 보행자 인식을 할 수 있습니다. 예를 들어, 82 x 36 pixel 크기의 패치 마다 보행자 여부를 인식할 수 있습니다. 패치를 조금씩 움직이면서 (슬라이딩 하면서) 보행자 여부를 인식합니다. 그리고 패치 사이즈를 변화시키면서 보행자 여부를 판단할 수 있습니다. 마찬가지로 Photo OCR 에서 텍스트 인식도 우선 텍스트가 있는지 판단하는 과정을 보행자 여부를 판단하는 과정과 같습니다.
두 번째 스텝은 이미지 패치에서 알파벳을 나누는 구간을 판단하는 것입니다.
Getting Lots of Data and Artificial Data
실제 데이터에서 가상의 데이터 (synthetic data) 를 만듭니다. 이러한 데이터를 만드는 이유는 트레이닝을 위한 가상의 데이터를 만들기 위해서입니다. 또는 실제 데이터를 왜곡시켜 여러 가상의 데이터를 생성할 수 있습니다. 음성 데이터의 경우에는 실제 데이터에 노이즈가 있는 사운드를 삽입할 수 있습니다. 의미 있는 왜곡은 랜덤한 노이즈는 아닙니다.
Ceiling Analysis: What Part of the Pipeline to Work on Next
파이프라인의 여러 ML 과정들 중에 어디에 팀원의 시간을 더 투입해야하는지 판단하기 위한 분석이다. 특정 과정을 개선했을 때, 정확도가 얼마나 올라가는지 확인하고, 이를 비교하여 예측도가 크게 증가하는 과정을 우선순위로 일한다.