일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- fairness
- 인공지능 신뢰성
- GPT
- 머신러닝
- Transformer
- Tokenization
- Ai
- gpt2
- nlp
- DevOps
- ChatGPT
- word2vec
- AI Fairness
- trustworthiness
- 자연어
- 지피티
- 챗GPT
- GPT-3
- cnn
- XAI
- ML
- 트랜스포머
- 인공지능
- 케라스
- 딥러닝
- 설명가능성
- MLOps
- Bert
- 신뢰성
- 챗지피티
- Today
- Total
목록GPT/개념정의 (13)
research notes
텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해할 수 있도록 텍스트를 적절히 숫자로 변환해야 한다. 단어를 표현하는 방법에 따라서 자연어 처리의 성능이 크게 달라지기 때문에 단어를 수치화 하기 위한 많은 연구가 있었고, 현재에 이르러서는 각 단어를 인공 신경망 학습을 통해 벡터화하는 워드 임베딩이라는 방법이 가장 많이 사용되고 있다. 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로 단어를 밀집(Dense) 표현으로 변환한다. 1. 희소 표현(Sparse Representation) 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되..
1. Sequence-to-Sequence 모델 정의 하나의 RNN을 인코더 또 다른 하나의 RNN을 디코더라는 모듈로 명명하고 두 개의 RNN을 연결해서 사용하는 인코더-디코더 구조를 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)로 정의한다. 이러한 인코더-디코더 구조는 주로 입력 문장과 출력 문장의 길이가 다를 경우에 사용하는데, 대표적인 분야가 번역기나 텍스트 요약과 같은 경우가 있다. 영어 문장을 한국어 문장으로 번역한다고 하였을 때 입력 문장인 영어 문장과 번역된 결과인 한국어 문장의 길이는 똑같을 필요가 없다. 2. 컨텍스트 벡터(Context vector) seq2seq는 크게 인코더와 디코더라는 두 개의 모듈로 구성된다. 인코더 RNN 셀은 모든 단어를 입력받은 ..
1. 텍스트 분석 종류 텍스트 분류(Text Classification): Text categorization이라고도 하며 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 감성 분석(Sentiment Analysis): 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭 텍스트 요약(Summarization): 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법이며 대표적으로 토픽 모델링(Topic Modeling)이 있다. 텍스트 군집화(Text Clustering)와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 2. 텍스트 분석 수행 프로세스 머신러닝 기반의 텍스트 분석은 다음과 같은 프로세스 순으로 수행 ① 텍스트 사전 준비작..