[머신러닝 코세라 강의] (2주차) "Gradient Descent 벡터 표현" Machine Learning (by Andrew Ng)

머신 러닝

[머신러닝 코세라 강의] (2주차) "Gradient Descent 벡터 표현" Machine Learning (by Andrew Ng)

마빈 Marvin 2022. 5. 29. 05:15

Andrew Ng 교수님의 Coursera 머신 러닝 수업 중 Octave 를 사용하는 튜토리얼 내용을 정리중이다. 오늘은 다른 프로그래밍 언어에서도 참고할만한 vectorization 개념과 Octave 코드에 대해서 다루어보도록 하겠다. 파이썬 코드는 다음 포스팅에 마련해두어야겠다.

Octave 관련 내용 목차:

(1) Basic Operations

(2) Moving Data Around

(3) Computing Data

(4) Plotting Data

(5) Control Statements: for, while, if statement
[Octave 관련 이전 포스팅, (1-5) 바로가기 링크]

(6) Vectorization (이번 포스트)

(6) Vectorization

(numerical) linear algebra 라이브러리를 이용하면 속도가 더 빨라질 수 있다.

$h_{θ} (x) = \sum_{j = 0}^{n} θ_{j} x_{j}$

$= θ^{T} x$

where $θ$ 와 $x$ 는 vector.

Unvectorized implementation.

octave:3> prediction = 0.0;

octave:4> n = length(x)

n = 3

octave:5> for j = 1:n,

> prediction = prediction + theta(j)*x(j)

> end;

prediction = 2

prediction = 14

prediction = 44

Vectorized implementation.

octave:6> prediction = theta'*x;

octave:7> prediction

prediction = 44

두 값이 동일함을 볼 수 있다. 코드도 짧고 속도도 빠르다.

Gradient descent

$θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{j}$

for $n = 2$ ,

$θ_{0} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{0}$

$θ_{1} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{1}$

$θ_{2} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{2}$

를 벡터 형태로 만들어보자.

$θ := θ - α δ$

where $δ = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}$

에서 $θ \in R^{n + 1}$ , $α \in R^{n}$ , $δ \in R^{n + 1}$ .

$δ$ 에 집중해보자.

$δ_{0} = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i}^{0}$ .

인데, $(h_{θ} (x_{i}) - y_{i}) \in R$ 이고, $x_{i} \in R^{n + 1}$ .

$δ = \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i} = (h_{θ} (x_{1}) - y_{1}) x_{1} + (h_{θ} (x_{2}) - y_{2}) x_{2} + . . . + (h_{θ} (x_{n}) - y_{n}) x_{n}$ 이다.

여기서 각각의 $(h_{θ} (x_{i}) - y_{i}) x_{i}$ 는 scala $\times$ vector 형태이다.

$δ$ 를 매트릭스의 곱형태로 표현해보자.

$δ = \sum_{i = 1}^{m} (h_{θ} (x_{i}) - y_{i}) x_{i} = (h_{θ} (x_{1}) - y_{1}) x_{1} + (h_{θ} (x_{2}) - y_{2}) x_{2} + . . . + (h_{θ} (x_{n}) - y_{n}) x_{n}$

$= (h_{θ} (x_{1}) - y_{1}) [\begin{matrix} x_{1}^{0} \\ x_{1}^{1} \\ x_{1}^{2} \end{matrix}] + (h_{θ} (x_{2}) - y_{2}) [\begin{matrix} x_{2}^{0} \\ x_{2}^{1} \\ x_{2}^{2} \end{matrix}] + . . . + (h_{θ} (x_{n}) - y_{n}) [\begin{matrix} x_{n}^{0} \\ x_{n}^{1} \\ x_{n}^{2} \end{matrix}]$

$= [\begin{matrix} x_{1}^{0} & x_{2}^{0} & . . . & x_{n}^{0} \\ x_{1}^{1} & x_{2}^{1} & . . . & x_{n}^{1} \\ x_{1}^{2} & x_{2}^{2} & . . . & x_{n}^{2} \end{matrix}] [\begin{matrix} (h_{θ} (x_{1}) - y_{1}) \\ (h_{θ} (x_{2}) - y_{2}) \\ . . . \\ (h_{θ} (x_{n}) - y_{n}) \end{matrix}]$

$= x^{T} (h_{θ} (x) - y)$

where $y = [\begin{matrix} y_{1} \\ y_{2} \\ . . . \\ y_{n} \end{matrix}]$

마무리하며

[ ] 추후에 gradient descent 알고리즘을 위의 matrix 방식을 적용하면 계산 속도가 더 빨라질 것 같다.

- cost function 과 gradient descent algorithm 을 for loop 을 이용해서 구하는 링크

부록

NOTE: $x^{T} (h_{θ} (x) - y)$ 를 도출하는 과정에서 vector ( $x^{T}$ ) 와 scala ( $h_{θ} (x_{i}) - y_{i}$ ) 들과 관련된 내용:

$[\begin{matrix} 1 & 3 & 5 \\ 2 & 4 & 6 \end{matrix}] [\begin{matrix} a \\ b \\ c \end{matrix}]$

$= [\begin{matrix} 1 a + 3 b + 5 c \\ 2 a + 4 b + 6 c \end{matrix}]$

$= [\begin{matrix} 1 \\ 2 \end{matrix}] a + [\begin{matrix} 3 \\ 4 \end{matrix}] b + [\begin{matrix} 5 \\ 6 \end{matrix}] c$

'머신 러닝' 카테고리의 다른 글

[머신러닝 코세라 강의] (3주차) "로지스틱 회귀" Machine Learning (by Andrew Ng) (0)	2022.05.30
[머신러닝 코세라 강의] (2주차) "Cost function 의 벡터 표현" Machine Learning (by Andrew Ng) (0)	2022.05.29
[머신러닝 코세라 강의] (2주차) "Cost Function & Gradient Descent" Machine Learning (by Andrew Ng) (0)	2022.05.26
[데이터과학 코세라 강의] (1주차) 파이썬을 이용한 머신러닝 (0)	2022.05.22
[데이터과학 코세라 강의] (4주차) 데이터 과학을 위한 파이썬 (0)	2022.05.21

현재글[머신러닝 코세라 강의] (2주차) "Gradient Descent 벡터 표현" Machine Learning (by Andrew Ng)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 과학과 경제학 PhD