일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- DevOps
- 인공지능 신뢰성
- GPT
- ChatGPT
- cnn
- XAI
- gpt2
- Tokenization
- GPT-3
- ML
- 신뢰성
- 케라스
- 인공지능
- 자연어
- word2vec
- MLOps
- 챗지피티
- fairness
- 챗GPT
- 트랜스포머
- nlp
- AI Fairness
- Bert
- Ai
- Transformer
- trustworthiness
- 지피티
- 딥러닝
- 머신러닝
- 설명가능성
- Today
- Total
목록Bert (2)
research notes
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/baFgj1/btrBqIb3rYK/w5QNuOmFDqlTZtVZsEwjv0/img.png)
BERT는 구글에서 발표한 최신 임베딩 모델이며 트랜스포머를 이용하여 구현되었다. 또한, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용하면 성능이 높게 나오는 기존의 사례들을 참고하였기 때문이다. 다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인 튜닝(Fine-tuning)이라고 한다. 아래 그림은 BERT의 파인 튜닝 사례를 보여준다. 우리가 하고 싶은 태스크가 스팸 메일 분류라고 하였을 때, 이미 위키피..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/N7QwU/btrAgpeem25/5akgE0nKoL1Wv1QvWNhxd1/img.png)
*** ratsgo's NLP blog (이기창) 내용 요약 *** 바이트 페어 인코딩(Byte Pair Encoding: BPE)은 원래 정보를 압축하는 알고리즘으로 제안되었으나 최근에는 자연어 처리 모델에서 널리 쓰이는 토큰화 기법 - GPT는 BPE 기법 토큰화 수행 - BERT는 BPE와 유사한 워드피스(Wordpiece) 토크나이저 사용 1. BPE란?(고빈도 바이그램 쌍 병합) BPE는 1994년 제안된 정보 압축 알고리즘으로 데이터에서 가장 많이 등장한 문자열을 병합해서 데이터를 압축하는 기법 aaabdaaabac → ZabdZabac ZabdZabac → ZYdZYac ZYdZYac → XdXac BPE 수행 이전에는 원래 데이터를 표현하기 위한 사전 크기가 4개(a, b, c, d)이나 ..