[머신러닝 코세라 강의] (4주차) "뉴럴 네트워크 (직관적 이해)" Machine Learning (by Andrew Ng)

머신 러닝

[머신러닝 코세라 강의] (4주차) "뉴럴 네트워크 (직관적 이해)" Machine Learning (by Andrew Ng)

마빈 Marvin 2022. 6. 10. 07:08

4주차는 뉴럴 네트워크에 관한 내용입니다. 이번 단원에서는 직관적으로 뉴럴 네트워크의 이론을 이해하는 단원입니다. 저는 neural network 가 효율적으로 표현할 수 있는 non-linear 가설의 예시가 좋았습니다.

Neural network 를 벡터로 표현하기

(TMI: 그림 그릴 때 "https://excalidraw.com/" 사이트를 이용하였습니다.)

$a_{1}^{(2)} = g (Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3})$

$a_{2}^{(2)} = g (Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3})$

$a_{3}^{(2)} = g (Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3})$

$h_{Θ} (x) = g (Θ_{10}^{(2)} a_{0}^{(2)} + Θ_{11}^{(2)} a_{1}^{(2)} + Θ_{12}^{(2)} a_{2}^{(2)} + Θ_{13}^{(2)} a_{3}^{(2)})$

where $a^{(1)} = x = [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{matrix}]$

and let

$z_{1}^{(2)} = Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3}$ ,

$z_{2}^{(2)} = Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3}$ ,

$z_{3}^{(2)} = Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3}$ ,

$z^{(3)} = Θ_{10}^{(2)} a_{0}^{(2)} + Θ_{11}^{(2)} a_{1}^{(2)} + Θ_{12}^{(2)} a_{2}^{(2)} + Θ_{13}^{(2)} a_{3}^{(2)}$

$h_{Θ} (x) = a^{(3)} = g (z^{(3)})$ 에서,

$z^{(3)} = [\begin{matrix} Θ_{10}^{(2)} & Θ_{11}^{(2)} & Θ_{12}^{(2)} & Θ_{13}^{(2)} \end{matrix}] [\begin{matrix} a_{0}^{(2)} \\ a_{1}^{(2)} \\ a_{2}^{(2)} \\ a_{3}^{(2)} \end{matrix}] = Θ^{(2)} a^{(2)}$

그리고, $a_{1}^{(2)} = g (Θ^{(1)} x)$

where $Θ^{(1)} x = [\begin{matrix} Θ_{10}^{(1)} & Θ_{11}^{(1)} & Θ_{12}^{(1)} & Θ_{13}^{(1)} \\ Θ_{20}^{(1)} & Θ_{21}^{(1)} & Θ_{22}^{(1)} & Θ_{23}^{(1)} \\ Θ_{20}^{(1)} & Θ_{21}^{(1)} & Θ_{22}^{(1)} & Θ_{23}^{(1)} \end{matrix}] [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{matrix}]$

예시

$y = x_{1} XOR x_{2}$ 를 구한다고 해봅시다.

Input		Output
$x_{1}$	$x_{2}$	$x_{1} XOR x_{2}$
0	0	0
0	1	1
1	0	1
1	1	0

왼쪽 그림은 뉴럴 네트워크로 (간단히) 표현해볼 그래프이고, 오른쪽 그림은 일반적인 상황이다.

$x_{1}$	$x_{2}$	$a_{1}^{(2)}$	$a_{2}^{(2)}$	$h_{Θ} (x)$
0	0			0
0	1			1
1	0			1
1	1			0

위 표의 빈칸에 맞는 값들을 찾아야 합니다. $h_{Θ} (x)$ 값이 둘 다 $0$ 이 될 때와 $1$ 이 될 때 각각 $a_{1}^{(2)}$ 와 $a_{2}^{(2)}$ 의 규칙이 비슷해야 합니다. 그래서 저는 다음과 같은 방법을 생각해 보았습다. $a_{1}^{(2)}$ 와 $a_{2}^{(2)}$ 이 $0$ 또는 $1$ 일 때 $h_{Θ} (x)$ 값이 $0$ 이 되고, 둘 다 $0$ 일 때 $h_{Θ} (x)$ 값이 $0$ 이 됩니다. 이렇게 했을 때, $a_{1}^{(2)}$ 이 [0,0,0,1] 형태가 나오고, $a_{2}^{(2)}$ 이 [1,0,0,0] 형태가 나옵니다. $a_{1}^{(2)}$ 또는 $a_{2}^{(2)}$ 가 output 으로 $1$ 값을 가지는 상황이, input 인 $x_{1}$ 과 $x_{2}$ 가 둘 다 $0$ 일때나 둘 다 $1$ 일때와 관련이 있어서 $x_{1} AND x_{2}$ 또는 $(NOT x_{1}) AND (NOT x_{2})$ 로 표현이 가능해보입니다.

$x_{1}$	$x_{2}$	$a_{1}^{(2)}$	$a_{2}^{(2)}$	$h_{Θ} (x)$
0	0	0	1	0
0	1	0	0	1
1	0	0	0	1
1	1	1	0	0

$h_{Θ} (x)$ 가 output 인 상황:

$a_{1}^{(2)}$ 가 output 인 상황:

$a_{2}^{(2)}$ 가 output 인 상황:

종합하면, 아래 그림과 같다.

$y = 1$ 과 $y = 0$ 을 반대로 했을 때 뉴럴 네트워크를 어떻게 구성해야 하는지 직접 풀어보면 좋은 연습이 될 것 같습니다. 정답은 Coursera 코스의 강좌 예제와 동일합니다 (이번 포스팅에 작성된 예제는 Coursera 코스 강좌에서 $y = 1$ 과 $y = 0$ 을 반대로 했을 때를 직접 풀어본 경우입니다).

Multiclass Classification

개, 고양이, 사람, 자동차 등의 여러 가지 사물로 분류할 때는, output 을 개 = [1,0,0,0], 고양이 = [0,1,0,0], 사람 = [0,0,1,1], 자동차 = [0,0,0,1] 이런 식으로 정의하고 한 번에 하나씩 위의 방식으로 파라미터를 구합니다.

어플리케이션

손글씨에서 숫자 (0~9) 구하기와 같은 것들이 대표적입니다. 손글씨에서 숫자 구하기의 경우에는 10개의 y 를 [1,...,0] 이런 식으로 정의하고 구합니다. 파이썬 말고 C++ 에서도 동작하는 그러한 코드를 작성해보고 싶다 (파이썬 라이브러리보다 속도가 더 빠르지 않을까 싶네요).

'머신 러닝' 카테고리의 다른 글

[머신러닝 코세라 강의] (6주차) "알고리즘 선택 가이드라인" Machine Learning (by Andrew Ng) (0)	2022.06.21
[머신러닝 코세라 강의] (5주차) "뉴럴 네트워크" Machine Learning (by Andrew Ng) (0)	2022.06.14
[머신러닝 코세라 강의] (3주차) "로지스틱 회귀" Machine Learning (by Andrew Ng) (0)	2022.05.30
[머신러닝 코세라 강의] (2주차) "Cost function 의 벡터 표현" Machine Learning (by Andrew Ng) (0)	2022.05.29
[머신러닝 코세라 강의] (2주차) "Gradient Descent 벡터 표현" Machine Learning (by Andrew Ng) (0)	2022.05.29

현재글[머신러닝 코세라 강의] (4주차) "뉴럴 네트워크 (직관적 이해)" Machine Learning (by Andrew Ng)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 과학과 경제학 PhD