일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 신뢰성
- Tokenization
- 머신러닝
- 설명가능성
- cnn
- 딥러닝
- word2vec
- 인공지능
- XAI
- Transformer
- nlp
- Ai
- 트랜스포머
- DevOps
- gpt2
- 케라스
- fairness
- MLOps
- ChatGPT
- trustworthiness
- ML
- 챗지피티
- GPT-3
- 챗GPT
- 자연어
- AI Fairness
- GPT
- 지피티
- Bert
- 인공지능 신뢰성
- Today
- Total
목록Transformer (3)
research notes
BERT는 구글에서 발표한 최신 임베딩 모델이며 트랜스포머를 이용하여 구현되었다. 또한, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용하면 성능이 높게 나오는 기존의 사례들을 참고하였기 때문이다. 다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인 튜닝(Fine-tuning)이라고 한다. 아래 그림은 BERT의 파인 튜닝 사례를 보여준다. 우리가 하고 싶은 태스크가 스팸 메일 분류라고 하였을 때, 이미 위키피..
GPT-1: Generative Pre-Training of a Language Model 1. 연구배경 보통 NLP 관련 데이터 셋은 Labeled 데이터 세트 보다 Unlabeled 형태의 데이터 셋이 훨씬 많다. 즉, 언어 모델을 학습하는데 필요한 데이터의 활용측면에 있어 레이블 된 데이터와 그렇지 않은 학습데이터 수의 차이가 상당하다. 따라서, Unlabeled 데이터 셋을 이용해 학습을 한 후 이를(Pre-trained model) 활용해 특정 태스크에 대한 학습을 수행하면(레이블 된 데이터를 활용해) 더 좋은 성능을 가진 모델을 만들 수 있을 것이다라는 가정을 가지고 본 연구가 수행되었다. 2. GPT: Unsupervised pre-training GPT는 기존 트랜스포머 구조에서 인코더를 ..
다량의 말뭉치에 대한 의미와 문맥을 학습한 언어모델(language model)을 활용해 문서 분류, 개체명 인식 등 각종 태스크를 수행할 수 있으며, 요즘에는 트랜스포머(transformer) 기반의 언어모델이 각광받고 있으며 주로 자연어 처리에서 사용하는 딥러닝 아키텍처 중 하나이다. 현재 자연어 처리의 역사는 트랜스포머와 함께하고 있다고 해도 과언이 아니다. BERT, GPT 등 요즘 널리 쓰이는 모델 아키텍처가 모두 트랜스포머이다. 또한 자연어 처리 외에 비전, 음성 등 다양한 분야에 널리 활용되고 있다. ※ BERT, GPT 따위의 부류는 미리 학습된 언어 모델(pretrained language model)이라는 공통점이 있다. ※ 기존의 RNN 및 LSTM과 같은 네트워크는 장기 의존성 문제..