일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 머신러닝
- XAI
- trustworthiness
- nlp
- word2vec
- 자연어
- fairness
- 챗지피티
- Bert
- Tokenization
- 인공지능
- GPT-3
- cnn
- 딥러닝
- 챗GPT
- DevOps
- 인공지능 신뢰성
- Transformer
- ML
- ChatGPT
- 신뢰성
- 트랜스포머
- 케라스
- 지피티
- gpt2
- 설명가능성
- Ai
- MLOps
- AI Fairness
- GPT
- Today
- Total
목록word2vec (3)
research notes
*** 딥 러닝을 이용한 자연어 처리 입문 (위키북스) 내용 요약 *** 케라스는 임베딩 층의 입력이 원-핫 벡터가 아니어도 동작을 하는데 그 이유는 케라스는 단어를 정수 인덱스로 바꾸고 원-핫 벡터로 변환 후 임베딩 층의 입력으로 사용하는 것이 아니라, 단어를 정수 인코딩까지만 진행 후 임베딩 층의 입력으로 사용하기 때문이다. 임베딩 층은 입력 정수에 대해 밀집벡터(dense vector)로 맵핑하고 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련되며, 이 밀집 벡터를 임베딩 벡터라고 부른다. 정수를 밀집벡터 또는 임베딩 벡터로 맵핑한다는 것은 특정 단어와 맵핑되는 정수를 인덱스로 가지는 테이블로부터 임베딩 벡터 값을 가져오는 룩업 테이블이라고 볼 수 있다. 그리..
텍스트를 컴퓨터가 이해하고, 효율적으로 처리하게 하기 위해서는 컴퓨터가 이해할 수 있도록 텍스트를 적절히 숫자로 변환해야 한다. 단어를 표현하는 방법에 따라서 자연어 처리의 성능이 크게 달라지기 때문에 단어를 수치화 하기 위한 많은 연구가 있었고, 현재에 이르러서는 각 단어를 인공 신경망 학습을 통해 벡터화하는 워드 임베딩이라는 방법이 가장 많이 사용되고 있다. 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로 단어를 밀집(Dense) 표현으로 변환한다. 1. 희소 표현(Sparse Representation) 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되..
1. 텍스트 분석 종류 텍스트 분류(Text Classification): Text categorization이라고도 하며 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법 감성 분석(Sentiment Analysis): 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭 텍스트 요약(Summarization): 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법이며 대표적으로 토픽 모델링(Topic Modeling)이 있다. 텍스트 군집화(Text Clustering)와 유사도 측정: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법 2. 텍스트 분석 수행 프로세스 머신러닝 기반의 텍스트 분석은 다음과 같은 프로세스 순으로 수행 ① 텍스트 사전 준비작..