일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 케라스
- 지피티
- gpt2
- Transformer
- 챗지피티
- Ai
- GPT-3
- nlp
- 신뢰성
- ChatGPT
- 딥러닝
- 머신러닝
- word2vec
- Tokenization
- 인공지능 신뢰성
- XAI
- Bert
- 트랜스포머
- DevOps
- GPT
- trustworthiness
- ML
- fairness
- 인공지능
- 자연어
- AI Fairness
- cnn
- MLOps
- 설명가능성
- 챗GPT
- Today
- Total
목록분류 전체보기 (62)
research notes
BERT는 구글에서 발표한 최신 임베딩 모델이며 트랜스포머를 이용하여 구현되었다. 또한, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. BERT가 높은 성능을 얻을 수 있었던 것은, 레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업(Task)에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용하면 성능이 높게 나오는 기존의 사례들을 참고하였기 때문이다. 다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인 튜닝(Fine-tuning)이라고 한다. 아래 그림은 BERT의 파인 튜닝 사례를 보여준다. 우리가 하고 싶은 태스크가 스팸 메일 분류라고 하였을 때, 이미 위키피..
GPT-1: Generative Pre-Training of a Language Model 1. 연구배경 보통 NLP 관련 데이터 셋은 Labeled 데이터 세트 보다 Unlabeled 형태의 데이터 셋이 훨씬 많다. 즉, 언어 모델을 학습하는데 필요한 데이터의 활용측면에 있어 레이블 된 데이터와 그렇지 않은 학습데이터 수의 차이가 상당하다. 따라서, Unlabeled 데이터 셋을 이용해 학습을 한 후 이를(Pre-trained model) 활용해 특정 태스크에 대한 학습을 수행하면(레이블 된 데이터를 활용해) 더 좋은 성능을 가진 모델을 만들 수 있을 것이다라는 가정을 가지고 본 연구가 수행되었다. 2. GPT: Unsupervised pre-training GPT는 기존 트랜스포머 구조에서 인코더를 ..
★★ 의 주피터 노트북 내용 발췌 : 작은 이미지 데이터셋에 딥러닝을 적용하는 일반적이고 매우 효과적인 방법은 사전 훈련된 네트워크를 사용하는 것입니다. 사전 훈련된 네트워크는 일반적으로 대규모 이미지 분류 문제를 위해 대량의 데이터셋에서 미리 훈련되어 저장된 네트워크입니다. 원본 데이터셋이 충분히 크고 일반적이라면 사전 훈련된 네트워크에 의해 학습된 특성의 계층 구조는 실제 세상에 대한 일반적인 모델로 효율적인 역할을 할 수 있습니다. 새로운 문제가 원래 작업과 완전히 다른 클래스에 대한 것이더라도 이런 특성은 많은 컴퓨터 비전 문제에 유용합니다. 예를 들어 (대부분 동물이나 생활 용품으로 이루어진) ImageNet 데이터셋에 네트워크를 훈련합니다. 그다음 이 네트워크를 이미지에서 가구 아이템을 식별하..
데이터 세트의 각 feature 값 범위가 크게 다를 경우 학습시에 손실함수가(loss function) 제대로 동작하지 않을 수 있으며, 경사하강법이(gradient descent) 피쳐 스케일링을 사용하지 않을 때보다 훨씬 빠르게 수렴하기 때문에 피쳐 스케일링 사용이 권고된다. e.g.) x1 = size (0-2000 feet), x2 = number of bedrooms (1-5) 해당 feature 값의 범위에서 생성된 손실함수의 등고선을 분석해보면 큰 범위 차이로 인해 세로로 크고 얇은 모양을 나타낸다. 이런 종류의 손실함수에서 경사하강법을 실행하면 전역 최소값을(global minimum) 찾는 데 오랜 시간이 걸릴 수 있다. *** 표준화 및 정규화 *** 표준화(Standardizatio..
1. 확률통계 기초개념 □ 통계학의 분류 기술통계(descriptive statistics): 조사해서 수집한 데이터를 수치나 표, 그래프 등으로 정리하고 데이터 전체가 나타내는 경향이나 성질을 파악하는 방법을 기술통계라고 한다. 추측통계(inference statistics): 수집한 샘플(표본이라고도 부른다)에서 모집단(전체)의 성질을 확률적으로 추측하는 방법. 즉, 전체를 조사하지 않고 무작위로 선택한 일부를 바탕으로 전체 상태를 예측하는 통계학이며 추정과 검정은 추측 통계의 핵심이 된다. 이 과정에서 표본은 전체에서 우연히 선택된 것에 불과하기 때문에 우연히 선택된 표본은 선택될 때마다 내용이 바뀐다.(즉, 확률의 개념이 적용된다) (추정) 국민 전체에서 임의로 선택한 1000명을 대상으로 흡연율..
1. 사건과 확률 ① 시행(trial) - 몇 번이고 반복할 수 있고 결과가 우연에 좌우되는 실험이나 관측 ex) 주사위 던지기, 동전 던지기 ② 표본공간(sample space) - 어떤 시행을 했을 때 일어날 수 있는 모든 결과를 모은 집합 ex1) 주사위를 던지는 시행의 표본공간: {1, 2, 3, 4, 5, 6} ex2) 동전을 던지는 시행의 표본공간: {앞, 뒤} ③ 사건(event) - 표본공간의 부분집합(표본공간의 일부분) ex1) 짝수 눈이 나오는 경우: {2, 4, 6}은 주사위를 던지는 시행의 사건 중 하나 ex2) 앞이 나오는 경우: {앞}은 동전을 던지는 시행의 사건 중 하나 ④ 근원사건(atom) - 표본공간의 단 하나의 성분으로 만들어지는 부분집합 ex1) 주사위를 던지는 시행의..
1. 파이썬 모듈은 크게 표준 모듈과 외부 모듈로 나뉜다. - 표준모듈: 파이썬에 기본적으로 내장되어 있는 모듈 - 외부모듈: 다른 사람들이 만들어서 공개한 모듈 2. 모듈을 가져 올 때는 다음과 같은 구문을 사용 import 모듈 이름 ex) import math: 수학과 관련된 기능을 가진 math 모듈사용 >>> math.sin(1) 0.8414709848078965 3. from 구문 모듈에는 많은 변수와 함수가 들어가 있다. 하지만 그 중에서 우리가 활용하고 싶은 기능은 극히 일부 일 수 있으며, math.cos(), math.sin(), math.pi 처럼 앞에 무언가를 계속 입력하는 것이 번거로울 수 있다. 이 때는 아래와 같이 from 구문을 사용한다. from 모듈 이름 import 가져..
얼마 전 스캐터랩이 개발한 인공지능 챗봇 서비스인 ‘이루다’가 개인정보 유출 및 성차별 문제로 많은 이슈 속에 서비스를 중단하였으며, 2016년 3월에는 미국의 컴퓨터 소프트웨어 회사인 마이크로소프트가 ‘테이’라는 인공지능 챗봇을 공개했지만 테이가 인종차별적 발언을 하는 등 막말을 내뱉기 시작하여 많은 논란이 커지자 마이크로소프트는 서비스를 종료했다. 이를 계기로 인공지능 편향성에 대한 문제가 수면 위로 본격적으로 떠올랐으며 인공지능을 도입하기 위해서는 안전하고 신뢰할만한 개발과 알고리즘의 중요성이 높아지게 되었다. 인공지능과 관련되어 제기되는 윤리적인 이슈 중 하나가 바로 편향성(bias)의 문제이다. 실제로 편향성의 문제를 편견(prejudice, vorurteil)이나 고정관념의 문제와 혼동하는 경..
1. 공정성에 대한 지표와 개념, 원칙은 분야와 상황에 따라 달리 적용해야 하고, 산업계 차원의 합의가 이루어지지 않고 있다. 2. 위험평가 알고리즘인 COMPAS는 과거 유죄판결을 받은 사람들의 재범 가능성 추정 그러나 실제로 범죄를 저지르지 않았음에도 불구하고 흑인이 백인보다 높은 위험도 판정을 받을 확률이 두배에 이름 3. 기계학습이 이해하는 수학적 공정성의 한계 기계학습이 이해할 수 있는 공정성은 수학적으로 정의되어 정량 평가가 가능해야 한다. 이에 대한 공정성의 정의는 무려 20여가지이며 대부분 분배적 관점에서 통계적 공정성에 초점을 두고 있다. 즉, 통계적 공정성에 대한 단일한(혹은 최상의 정의에 대한) 합의가 존재 하지 않는다. 이 외에 아래와 같은 공정성 관련 한계들이 존재한다. 4. 사회..
SPD는 그룹 공정성(Group fairness) 평가 알고리즘 중 하나이며 그룹 공정성은 특권 집단의(privileged group) 구성과 비특권 집단의(unprivileged group) 구성을 평균적으로 비교하는 것이다. SPD는 그룹 공정성을 측정하기 위한 매트릭이며 특권 그룹(𝑍 = priv; white)과 비특권 그룹(𝑍 = unpr; black) 사이의 유리한 레이블(favorable label) 𝑃(𝑦̂(𝑋) = fav)(특별한 보살핌을 받는 비율)의 선택 비율의 차이를 계산하여 불평등 효과(disparate impact)를 정량화한다. SPD의 값이 0이면 비특권 그룹(흑인)과 특권 그룹(백인)의 구성원이 동일한 비율로 favorable label로 선택되어 공정한 상황으로 간주된다. ..