일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- cnn
- nlp
- DevOps
- ML
- Bert
- 신뢰성
- ChatGPT
- XAI
- 자연어
- trustworthiness
- 인공지능
- Transformer
- 설명가능성
- 머신러닝
- 챗지피티
- gpt2
- MLOps
- fairness
- 딥러닝
- Ai
- 지피티
- GPT-3
- GPT
- 케라스
- 챗GPT
- 인공지능 신뢰성
- word2vec
- Tokenization
- AI Fairness
- 트랜스포머
- Today
- Total
목록backpropagation (2)
research notes
신경망 학습에 경사하강법을 사용하는 방법을 알아보기 위해 하나의 입력층, 은닉층, 출력층을 사용해 가장 단순한 신경망부터 시작 조금 더 복잡한 시나리오 구성을 위해 linear combination 및 activation을 추가하였으며, 순방향 전파 단계는(forwarded propagation) 단순히 하나의 출력이 다음 층의 입력으로 사용되는 것을 쉽게 알 수 있다. 신경망의 출력과(predict) 목표(target) 간의 차이를 최소화 하기 위해 모델의 각 매개변수가(가중치, weight) 오차함수의 결과에 얼마나 영향력을 미치는지 확인 후 해당 값을 이용해 반복적으로 경사하강법을 사용하여 가중치를 업데이트 한다. 오차함수에 대한 각 가중치의 영향력은 편미분 계산을 통해 확인할 수 있다. 아래 공식..
1. 수치 미분(numerical differentiation) 미분은 극한으로 짧은시간(순간)에서의 변화량을 뜻한다. 예) 물체의 시간에 따른 위치 변화율(위치의 미분) ⇒ 속도 매우 미세한 차이를(ex. h=0.0001) 이용하여 함수의 변화량을 구하는 방법을 수치 미분이라고 한다. 수치 미분의 결과에는 오차가 포함되어 있을 뿐만아니라 수백만 개 이상의 매개변수를 사용하는 신경망과 같이 변수가 여러 개인 함수를 미분 할 경우 변수 각각을 미분해야 하기 때문에 계산량이 많다는 문제점이 있다(현실적이지 않다). ⇒ 역전파의 등장 2. 연쇄법칙(Chain rule) 역전파를 이해하는 열쇠는 연쇄법칙이다. y=F(x)는 a=A(x), b=B(a), y=C(b)라는 세 함수로 구성된 합성 함수이며 이 때의 계..