일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- Bert
- 딥러닝
- AI Fairness
- 케라스
- trustworthiness
- cnn
- 지피티
- Tokenization
- Ai
- GPT-3
- 인공지능
- 머신러닝
- word2vec
- DevOps
- gpt2
- ML
- 인공지능 신뢰성
- Transformer
- 신뢰성
- 트랜스포머
- 챗지피티
- nlp
- XAI
- ChatGPT
- fairness
- MLOps
- 자연어
- 설명가능성
- GPT
- 챗GPT
Archives
- Today
- Total
목록바이트페어인코딩 (1)
research notes
서브워드 토크나이저(Subword Tokenizer)
*** ratsgo's NLP blog (이기창) 내용 요약 *** 바이트 페어 인코딩(Byte Pair Encoding: BPE)은 원래 정보를 압축하는 알고리즘으로 제안되었으나 최근에는 자연어 처리 모델에서 널리 쓰이는 토큰화 기법 - GPT는 BPE 기법 토큰화 수행 - BERT는 BPE와 유사한 워드피스(Wordpiece) 토크나이저 사용 1. BPE란?(고빈도 바이그램 쌍 병합) BPE는 1994년 제안된 정보 압축 알고리즘으로 데이터에서 가장 많이 등장한 문자열을 병합해서 데이터를 압축하는 기법 aaabdaaabac → ZabdZabac ZabdZabac → ZYdZYac ZYdZYac → XdXac BPE 수행 이전에는 원래 데이터를 표현하기 위한 사전 크기가 4개(a, b, c, d)이나 ..
GPT/개념정의
2022. 4. 24. 22:37