일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- cnn
- 인공지능
- 설명가능성
- 자연어
- GPT
- Tokenization
- 트랜스포머
- 인공지능 신뢰성
- ChatGPT
- word2vec
- MLOps
- DevOps
- 케라스
- AI Fairness
- 챗지피티
- XAI
- Ai
- 챗GPT
- fairness
- trustworthiness
- GPT-3
- gpt2
- 지피티
- Bert
- nlp
- 머신러닝
- 신뢰성
- Transformer
- 딥러닝
- ML
Archives
- Today
- Total
목록서브워드 (1)
research notes
토큰화(Tokenization)
*** ratsgo's NLP blog (이기창) 내용 요약 *** 토큰화란 문장을 토큰 시퀸스로 나누는 것이며 크게 문자 단위 토큰화, 단어 단위 토큰화, 서브워드의 방법이 있다. 또한 토큰화를 수행하는 프로그램을 토크나이저(Tokenizer)라고 한다. ① 단어 단위 토큰화 단어 단위로 토큰화를 진행 할 수 있으며, 가장 간단한 방법은 공백을 기준으로 분리하는 것이다. 어제 카페 갔었어 → 어제, 카페, 갔었어 어제 카페 갔었는데요 → 어제, 카페, 갔었는데요 위와 같이 공백을 기준으로 분리하게 되면 따로 토크나이저 프로그램을 사용하지 않아도 된다는 장점이 있지만, 어휘 집합의 크기가 매우 커질 수도 있다. 예) '갔었어', '갔었는데요'처럼 표현이 살짝 바뀌어도 모든 경우의 수가 어휘 집합에 포함되..
GPT/개념정의
2022. 4. 22. 22:00