일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- fairness
- word2vec
- 인공지능
- DevOps
- XAI
- 자연어
- 챗지피티
- 지피티
- ML
- gpt2
- 케라스
- 인공지능 신뢰성
- 트랜스포머
- Bert
- GPT
- Tokenization
- GPT-3
- cnn
- nlp
- MLOps
- Transformer
- 딥러닝
- 신뢰성
- trustworthiness
- 머신러닝
- ChatGPT
- 설명가능성
- 챗GPT
- Ai
- AI Fairness
Archives
- Today
- Total
목록subword (1)
research notes
토큰화(Tokenization)
*** ratsgo's NLP blog (이기창) 내용 요약 *** 토큰화란 문장을 토큰 시퀸스로 나누는 것이며 크게 문자 단위 토큰화, 단어 단위 토큰화, 서브워드의 방법이 있다. 또한 토큰화를 수행하는 프로그램을 토크나이저(Tokenizer)라고 한다. ① 단어 단위 토큰화 단어 단위로 토큰화를 진행 할 수 있으며, 가장 간단한 방법은 공백을 기준으로 분리하는 것이다. 어제 카페 갔었어 → 어제, 카페, 갔었어 어제 카페 갔었는데요 → 어제, 카페, 갔었는데요 위와 같이 공백을 기준으로 분리하게 되면 따로 토크나이저 프로그램을 사용하지 않아도 된다는 장점이 있지만, 어휘 집합의 크기가 매우 커질 수도 있다. 예) '갔었어', '갔었는데요'처럼 표현이 살짝 바뀌어도 모든 경우의 수가 어휘 집합에 포함되..
GPT/개념정의
2022. 4. 22. 22:00