재밋게 가르치기: [내 신경망 만들기 (Making My Own Neural Network)/1부] 신경망 기초 이론

내 신경망 만들기(Making My Own Neural Network), 1부

이글의 제목은 다분히 "내 칩 제작 서비스"에서 따왔다.

1. 시작하며

2. 단위 환산기

3. 직선 한개로는 부족하다

4. 뇌 신경 세포의 결합을 모사한 "인공 신경망"

5. 오류의 역전파

6. 연결 가중치 보정 전략

7. 끝으로...

----------------------------------------------------------------------------------------------

[참고서] Make Your Own Neural Networks, Tariq Rashid [book][검색링크]
----------------------------------------------------------------------------------------------

1. 시작하며

바야흐로 "인공 지능"의 시대다. 일상 다반사가 된 "인공지능"의 기초는 "신경망"이라는데 도데체 그게 뭔가 싶어 찾아보면 알듯 모를듯 하다. 수많은 AI를 내세운 동영상 강좌가 넘쳐난다. 기초라고 하지만 끝까지 시청하기 어렵다. 수식 자랑을 늘어 놓는 탓이다. 그러다가 이 책을 발견 했다.

Make Your Own Neural Network 신경망 첫걸음

한글 번역판도 있다. 이 책의 부제 "수포자도 이해하는 신경망 동작 원리와 딥러닝 기초"라는 문구에 동의한다. 다만 '수포자'의 입문서라기에는 분량이 만만치 않다. 그래서 요약글을 준비했다. 원서의 제목대로 "내 신경망(My Own Neural Network)" 제작이 목표다. 이 책은 1부에서 신경망의 작동 원리를 곱셈과 덧셈 만으로 설명한다. 약간의 고등 수학 '처럼' 보이는 부분이 가미되어 있지만 1차 방정식과 인수분해 만으로도 충분히 이해할만 한 수준이다. 2부는 '파이썬(Python)'으로 내 신경망을 제작한다. "DIY with Python" 라니 장 제목부터 남다르다. '파이썬'이라는 컴퓨팅 언어를 모르는 입문자를 배려하여 "아주 부드럽게 시작(A Very Gentle Start with Python)"한다. 1부가 '수포자' 였다면 2부는 '컴포자(컴퓨팅 언어를 포기한 자)'를 대상으로 쓰였다고 해줄 만 하다. 텐서플로우니 파이토치니 하는 매우 추상적인 패키지(라이브러리)들을 사용하지 않고도 MNIST 라는 손글씨 숫자 영상 인식을 수행하는 "내 신경망"을 충분히 코딩하고 실행할 수 있음을 보여준다. 가장 기본적인 numpy, matplot 만 사용한다. 사설이 길었다. 시작해 보자.

2. 단위 환산기

비례식은 들어봤을 것이다. 예를 들어 거리의 단위로 마일(mile)과 키로미터(km)가 있다. 이 둘 사이의 환산 공식을 아는가? 모른다고 치자. 다행히 두 거리 단위의 관계는 비례한다.

Mile = A * Kilometer

마일에 숫자(비례 상수 A)를 곱하면 킬로미터가 된다는 의미다. 두 단위의 관계를 그래프로 표현하면 다음과 같다. 단위 환산 그래프다. 가로축에 킬로미터 세로축이 마일이다.

'무지렁이' 기계한테 '비례 관계'라는 힌트 만 주고 비례상수 A 를 구하라고 시켜보자. 기계는 아무렇게 직선을 주욱 긋는다. 이 직선의 기울기가 상수 W 다. 제대로 그었는지 확인하기 위해 한 검증치를 제시한다.

37mile -> 59.6Km

똑똑한 인간은 단번에 계산할 수 있겠지만 기계는 아무것도 모른다. 다만 자기가 그은 직선과 제시된 정보와 맞춰보고 오차로부터 기울기를 보정할 줄은 안다. 기계가 아무렇게나 그어놓은 직선으로부터 얻은 값을 y 라고 하자. 가로축의 동일한 지점 x 에서 나와야 할 바른 값은 t 라고 하자.

오차 E는 t 와 y의 차분이다. 이로부터 수정해야 할 직선의 기울기를 구할 수 있다.

이 "보정치 구하기"가 바로 기계학습이다. 기계는 t 가 아니라(!) 오류 E 로부터 ∆W 를 학습한다. 예로 돌아가 보자. 기계가 아무렇게 그은 직선의 기울기 W = 0.9 였다고 하자. 제시된 정보에 따르면 x = 37 에서 목표치는 59.6 다. 기계가 그은 직선에 의하면 x = 37 에서 y = 33.3 (=0.9*37) 다. 따라서 오차 E = 26.3(= 59.6 - 33.3) 다. 보정해야 할 기울기 ∆W = 0.7108(= 26.3/37) 다. 기계는 그만큼 보정하여 기울기를 수정한다.

갱신된 기울기를 가지고 제시했던 정보를 검산 해보자.

37 * W_new = 37 * 1.6108
= 59.5996

마일에서 킬로미터로 변환하는 비례상수 A를 단번에 구했다. 처음부터 나눗셈을 할 줄 알았더라면 그리고 비례식을 알았더라면 오차를 구하고 보정치를 생각할 필요가 없었을 것이다. 기계가 정답을 찾아가는 과정을 간략히 요약하면 다음과 같다.

(1) 기계는 처음에 '임의'로 W를 정한다.
(2) W와 학습 입력을 곱하여 기계출력을 구한다.
(3) 기계출력과 학습 목표치를 비교하여 오차를 구한다.
(4) 오차가 허용치 보다 크면 ∆W를 '적절'히 주고 W 를 갱신 한다.
(5) 갱신한 W를 가지고 (2)로 간다.

이 반복적인 과정은 방정식의 근을 찾아가는 초보적인 수치해석법과 다를바 없다. '임의'로 정한 초기값이 정답에 가까웠다면 반복을 효과적으로 줄일 수 있을 것이다. '적절'한 보정치 ∆W를 잡기 위해 경사 하강법(미분!)을 동원한다. 인공 신경망이 수치해석과 다른 점이라면 고차 다항식을 배제하고 독립적인 다수(매우 많다!)의 1차식(직선!)만 사용한다는 것이다.

3. 직선 한개로는 부족하다

직선을 사용하여 세상사를 구분하려고 한다. 세상일이 이렇게 단순하면 좋으련만 수많은 변수가 서로 얼키고 설켜있다. 직선 하나 만으로 만사를 구분하기 어렵다는 것은 자명하다. 당장 단 2개의 변수를 가진 XOR 라는 논리 함수를 보자. 두 축의 좌표계 상에 배치된 이 함수의 출력을 직선 한개로 구분할 방법이 없다. 그렇다면 여러개의 직선을 동원하면 가능하지 않을까? 영역을 구분하는 경계를 완성하려면 직선이 유효한 범위도 정의 해야 한다.

4. 뇌 신경 세포의 결합을 모사한 "인공 신경망"

"뇌 신경망"이라고 하면서 생물학(뇌과학)을 들이밀 필요는 없을 것이다. 너무나 많이 들었을 테니까! 동물의 뇌에서 신경 세포들의 작동을 알아보니 단순하다. 신경 세포들 사이의 정보전달은 연결 강도의 세기와 비례한다는 것이다(직선!). 그대신 수많은 신경 세포들이 서로 얽혀있다. 인간의 뇌는 약 8천억개의 신경 세포들이 있단다. 초파리는 장애물을 피해 비행하는데 10만개의 신경세포들을 동원한단다. 엄청난 수의 직선들이 얽혀 신통한 결정을 하는 셈이다. 신경 세포는 별 것 아닐지 몰라도 떼로 모아놓은 "신경망"이 낳는 결과는 상상을 초월한다. 신경 세포들이 층을 이뤄 연결되어 더욱 위력을 발휘한다. 게다가 연결 강도를 유연하게 바꿀 수 있다.

신경세포(뉴런)들의 연결망을 다음과 같이 모사한다. 다수의 신경 세포들은 층으로 나눠져 (겹겹이) 분포되었다. 신경 세포들 사이의 연결을 묘사하는 수식은 1차 함수다. 1차 함수의 기울기를 가중치라 한다. 연결된 두 신경세포의 관계는 이전 신경세포의 출력과 가중치의 곱이다. 한 신경세포에 다수의 신경세포들이 연결되어 있으므로 이전 신경세포의 출력과 연결강도(가중치) 곱의 합이 현재 신경세포의 입력이다.

한 신경 세포는 다수의 입력을 받아 자신의 출력을 결정하는 함수를 가진다. 이 함수를 활성함수(activation function)라 한다. 연결 받을 신경세포의 갯수(함수의 정의구역의 범위)가 특정되지 않았더라도 출력을 제한할 필요가 있다. 한 신경세포가 폭주하면 신경망을 망칠 수도 있다. 적절한 활성함수는 이를 방지한다. 시그모이드 함수는 입력이 무한히 증가 하더라도 그 출력을 수렴 시킬 수 있다.

[출처]How to play around with sigmoid function to increase its y max and shift to the right for positive x only

아래 동영상은 로지스틱 함수(Logistic Fnction, 개체군 증가 모델에서 유래[로지스틱 함수의 뜻])로 불리는 시그모이드 함수를 간결하게 설명한다.

The Sigmoid Function Explained Clearly

시그모이드 함수가 확율예측(로지스틱 회귀)에 사용된다는 점을 간략히 설명하고 있다.

모사한 뇌의 신경세포 연결망 규모는 유한할 수 밖에 없다. 폭주를 막도록 연결 강도의 범위를 제한 하는 방법도 있다. 따라서 시그모이드 함수를 적용하지 않더라도 신경 세포의 출력은 예측 가능하다. 계산이 복잡한 시그모이드 함수 대신 단순한 직선식을 적용하기도 한다.

[출처] Rectified Linear Unit (ReLU)

두 층 사이 신경 세포의 연결을 수식으로 표현하려면 매우 많은 1차 식이 동원되어야 한다. 수학의 시그마 기호(Σ)는 이를 간략하게 표현하는 방법이다.

W_ij 는 정보전송 시작층의 i번째 신경세포의 출력과 도착층의 j번째 신경세포의 입력 사이에 연결 강도를 나타낸다. 신경망을 2개 층에서 3개 층으로 확장해도 규칙은 같다. 곱의 합 Σ(W_ij*O_i)을 행렬로 표현하면 다음과 같다. 굳이 행렬 형식으로 표현하는 이유가 있을까? 개발자(또는 연구자)마다 선호하는 표기법이 있기 마련이다. 행렬 형식으로 표현할 경우 직관적으로 보일 수도 있고 행렬 계산용 컴퓨팅 라이브러리들이 준비되어 있어서 코딩에 큰 수고를 들이지 않아도 된다.

각 층을 구성하는 신경세포의 출력은,

신경망의 입력에서 출력까지 이어지는 순방향(Forward) 계산에 필요한 수학은 이것이 전부다. 정말 별 것 없다! 신경망을 구성하는 세포들 사이의 관계를 1차 방정식(직선들!)으로 묘사하고 그들의 합이 있을 뿐이다. 수학은 간단하지만 수많은 신경세포들이 가중치를 두고 겹겹이 연결된 망을 형성되었다. 연결 가중치의 학습가능한 유연성이 기계에 지능을 부여하는 원리다.

입력에서 출력을 얻을 때까지 규칙적(연속적)인 곱셈과 덧셈이 이어질 뿐 비교 판단이 없다는 점을 눈치 챘는가? 알고리즘을 기술하는 컴퓨팅 언어의 if~else~과 그에 따른 분기(branch)가 없다. 알다시피 폰-노이만 방식 컴퓨터 구조에서 CPU의 가장큰 손해가 바로 피연산자의 적제및 이동(load & store)과 분기문 이라는 점을 기억하자. 게다가 신경망 계산의 흐름이 한방향으로 만 이어지는 특징을 가지고 있어서 병렬처리 계산기를 구성하기에 매우 적합하다.

5. 오류의 역전파

'지능'은 다수의 층으로 나눠 분포한 신경 세포들과 그들 사이의 유연한(학습 가능한) 연결 가중치가 낳은 결과다. 신경망의 학습은 신경세포들 사이의 연결강도 W_ij 와 W_jk 를 효과적으로 그리고 적절하게 갱신하는 과정이다. 학습하기 전의 연결 강도는 임의로 그은 직선의 기울기다. 학습을 통해 임의로 주어졌던 연결 강도를 보정하기 위한 ∆W_ij 와 ∆W_jk를 '오차 역전파" 법으로 구해보자.

먼저 전방향으로 전달되는 오차를 따져보자. j-층 각 노드의 오류 E_j 는 연결 강도 W_jk의 분량 만큼 분할되어 k-층으로 전달 된다.

신경망의 최종층(k-층)의 오차 E_k 가 발생하는 요인을 따져보면 j-층의 출력 O_j와 연결 강도 W_jk의 곱에서 비롯되었다는 것을 알 수 있다.

k-층의 오차는 j-층의 오차가 연결 가중치를 타고 모인 결과라 할 수 있다.

오차 E_k 를 근거로 연결 가중치 보정 값 ∆W_jk 를 구할 수 있다.

E_k는 신경망의 최종 k-층에서 오차이므로 k번째 노드(신경세포)의 출력 O_k와 학습목표치 t_k와의 차분으로 구할 수 있다. 그런데 t_k 에 대한 근거가 없다. 즉, ∆W_jk를 구하기 위하여 분모에 들어갈 x_k 에 해당하는 값이 주어지지 않았다.

i-층과 j-층 사이의 연결 가중치 W_ij를 갱신 하려면 E_j 를 알아야 한다. 가중치 보정값 ∆W_ij을 구하기 위해 필요한 모든 변수가 모두 미지인 셈이다.

E_j는 물론 x_j 가 알려지지 않았으므로 ∆W_ij를 직접 구할 수 없다. 다행히 E_j 는 k-층 노드의 오차 E_k와 연결가중치 W_jk에서 비롯되었다는 점은 분명하다.

k-층의 오차 E_k 를 가중치 W_ij 를 가지는 연결을 통해 역전파(Error Back-Propagate)하여 E_j를 '추정' 한다. E_j를 추정하기 위한 역방향 연결 가중치 행렬은 전방향 연결 가중치 행렬과 전치(transpose)관계다.

E_k를 구하고 E_j 를 추정해냈다. ∆W_jk를 구하기 위한 x_k와 x_j 는 근거가 없다. 따라서 ∆W_jk를 '적절'히 정한 후 전방향 계산과 오차 구하기를 반복하는 수밖에 없다.

6. 연결 가중치 보정 전략

오차 E 를 감소시키는 방향으로 연결 가중치를 조절해본다. 지도학습에서 k-층의 목표 t_k 가 주어졌으므로 오차 E_k는 노드 출력 O_k에 의존한다. 다시 O_k 는 W_jk에 달렸다. 따라서 W_jk를 오차 E_k의 종속변수로 보고 관계를 설정해보자.

목표치가 주어진 k-층의 모든 노드에서 발생한 오차의 합을 신경망 오차로 정의하자. 오차 E_k 가 음수 또는 양수가 될 수 있으므로 단순 합은 적절치 않다. 각노드의 오차 절대값을 취한 합을 신경망의 결과를 평가하는 총 오차 E_total로 삼을 수 있다.

연결강도 W_jk를 변경하는 전략은 총 오차 E_total이 감소하는 방향으로 ∆W_jk를 조절하는 것이다. 총 오차를 아래와 같이 각 노드의 오차의 절대값 대신 제곱한다. 절대값 취하기 효과를 가질 뿐 만 아니라 오차를 줄여나갈 수 있는 방안이 된다.

최종층의 t_k는 주어졌으며(지도학습!) O_j는 이전 전방향 신경망 계산으로 알고있다. 학습은 W_jk의 변경에 관심을 가지고 있다. 최초 '임의' W_jk = W1일 때 E_k(W1) 만큼의 오차가 발생 했다. W1을 수정하여 오차를 줄여야 한다. W_jk에서 E_k(W_jk)의 접선의 기울기 만큼 가감해 주어 기울기가 0에 가까워 질때까지 반복한다. 이는 수치해석법의 초보적인 최소값 찾기다. 신경망에서는 이를 '경사 하강법(Gradient Descent)'이라고 한다.

경사 하강법으로 최소 오차를 찾아가는 전략을 직관적으로 알아보자. W1에서 접선의 기울기는 양이다. E_k(W_jk)=0로 이동하려면 W1에서 기울기 만큼 빼주어야 한다. W4에서 접선의 기울기가 음이면 W4에 기울기 만큼 더해준다. 기울기에 학습 상수를 곱하여 연결강도 보정치를 결정한다. 과도한 학습 반복, 지역 최소값을 막기 위해 '적당한' 학습률 상수(Learning Rate)를 준다.