일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- DevOps
- 챗GPT
- word2vec
- 머신러닝
- 지피티
- 챗지피티
- Tokenization
- trustworthiness
- 인공지능
- gpt2
- nlp
- Ai
- 설명가능성
- 트랜스포머
- 신뢰성
- cnn
- fairness
- XAI
- ChatGPT
- GPT-3
- MLOps
- Bert
- 인공지능 신뢰성
- Transformer
- 케라스
- GPT
- ML
- 딥러닝
- 자연어
- AI Fairness
- Today
- Total
목록Tokenizer (2)
research notes
*** ratsgo's NLP blog (이기창) 내용 요약 *** 바이트 페어 인코딩(Byte Pair Encoding: BPE)은 원래 정보를 압축하는 알고리즘으로 제안되었으나 최근에는 자연어 처리 모델에서 널리 쓰이는 토큰화 기법 - GPT는 BPE 기법 토큰화 수행 - BERT는 BPE와 유사한 워드피스(Wordpiece) 토크나이저 사용 1. BPE란?(고빈도 바이그램 쌍 병합) BPE는 1994년 제안된 정보 압축 알고리즘으로 데이터에서 가장 많이 등장한 문자열을 병합해서 데이터를 압축하는 기법 aaabdaaabac → ZabdZabac ZabdZabac → ZYdZYac ZYdZYac → XdXac BPE 수행 이전에는 원래 데이터를 표현하기 위한 사전 크기가 4개(a, b, c, d)이나 ..
*** ratsgo's NLP blog (이기창) 내용 요약 *** 토큰화란 문장을 토큰 시퀸스로 나누는 것이며 크게 문자 단위 토큰화, 단어 단위 토큰화, 서브워드의 방법이 있다. 또한 토큰화를 수행하는 프로그램을 토크나이저(Tokenizer)라고 한다. ① 단어 단위 토큰화 단어 단위로 토큰화를 진행 할 수 있으며, 가장 간단한 방법은 공백을 기준으로 분리하는 것이다. 어제 카페 갔었어 → 어제, 카페, 갔었어 어제 카페 갔었는데요 → 어제, 카페, 갔었는데요 위와 같이 공백을 기준으로 분리하게 되면 따로 토크나이저 프로그램을 사용하지 않아도 된다는 장점이 있지만, 어휘 집합의 크기가 매우 커질 수도 있다. 예) '갔었어', '갔었는데요'처럼 표현이 살짝 바뀌어도 모든 경우의 수가 어휘 집합에 포함되..