플레이어로 건너뛰기본문으로 건너뛰기푸터로 건너뛰기
  • 5일 전

카테고리

📺
TV
트랜스크립트
00:00다음 영상에서 만나요.
00:30다음 영상에서 만나요.
01:00저희가 1, 2, 3회차에서는요. 프롬프트와 프롬프트 엔지니어링의 개념, 그리고 인간과 인간 사이의 대화 메커니즘, 상호작용과의 어떤 관계에 대해서 살펴봤다면 이번 회차부터는 문장을 생성하는 원리, LLM에 대해서 조금 더 깊게 이해해보는 시간을 가져보겠습니다.
01:191, 2, 3회차에서는요.
01:26라진 앵구시 마르일이라는 이 거대 언어 모델의 발전 과정에 대해서 한번 살펴볼 텐데요.
01:33채취피티 이전에도 이 언어 모형이 존재했었습니다.
01:37이 언어 모형이라고 하면 쉽게 말을 하면 언어를 AI가 어떻게 분석하고 이해하는지에 대한 연구 분야였어요.
01:48NLP라는 내추럴 랑구지 프로세싱이라는 자연어 처리하는 방식이 있었는데 이 자연어 고유의 어떤 특징들, 예를 들어서 한국어가 굉장히 어려운 언어라고 말씀드렸잖아요.
02:01그래서 한국어는 단어, 문법, 뉘앙스, 문화적인 어떤 복합적인 요소로 구성이 되어 있어서 NLP라는 어떤 자연어 처리하는 기법에 있어서 난관이 많았는데
02:14채취피티가 만들어지고 나서 인간의 자연어를 조금 더 잘 이해하고 똑똑한 언어 모델이 나오게 되었습니다.
02:23그러면 이 모델이 어떻게 만들어지게 되었는지를 한번 순차적으로 살펴볼게요.
02:28발전 과정은 총 4가지 단계를 밟습니다.
02:32첫 번째, 언어의 수치화, 두 번째는 어순 맥락의 이해, 세 번째는 단어 간 관계의 이해, 네 번째는 모형의 성능 재고예요.
02:42우선 자연어는 컴퓨터 입장에서는 굉장히 큰 덩어리예요.
02:47코드는 0과 1로 처리를 해서 0 아니면 1인 굉장히 이분법적인 사고로 이루어져 있는데
02:54자연어 같은 경우는 쉽게 예를 들면
02:58빨간색이라고 하면 불구스름하다, 불그레하다
03:02아니면 뭔가 진짜 새빨갛다
03:04한국어의 색깔 표현 엄청 다양하게 있잖아요.
03:06이런 어떤 자연어의 미묘함과 섬세함을 0과 1로 나누기가 굉장히 어렵죠.
03:12그래서 언어를 수치화를 좀 해야 하는데
03:16그랬을 때 컴퓨터가 이해할 수 있는 그 조각들이 있어요.
03:22그래서 이거를 벡터로 바꾼다고 하고요.
03:24벡터는 숫자를 의미합니다.
03:26그래서 인베딩에서 시작을 합니다.
03:28만약에 예를 들어서 인공지능이라고 하면
03:30이거를 인공지능을 컴퓨터가 이해할 수 있는 단어의 조각으로 바꾸는 작업이에요.
03:36두 번째는 어순과 맥락을 이해를 합니다.
03:42언어에는 어순이라는 게 존재해요.
03:44영어에는 주어가 먼저 나오고
03:46동사가 나오고 목적어가 나온다고 하면
03:48한국어는 반대로 주어, 목적어, 동사가 나오는 구조죠.
03:52그래서 인러닝 구조를 활용해서
03:54인간의 언어를 시계열이나 맥락 처리하는 방식으로 이해를 시키죠.
04:00그럼 다음에 세 번째는 넘어가기 전에
04:04인코더와 디코더라는 개념에 대해서 잠깐만 살펴볼게요.
04:08인간의 그 언어 문장을 AI가 어떻게 이해할 것인가
04:12언어 모델이 어떻게 이해하는가 라고 한다고 하면
04:16이 인코더와 디코더의 과정을 거치는데요.
04:19인코더 같은 경우는 문장에서 나열된 순서대로
04:23언어가 입력이 되고 그런 식으로 이해를 해서
04:27중요한 정보를 추출해서 요약하는 방식이 인코더고요.
04:31인코더가 이런 식으로 처리한 것을 디코더한테 해주면
04:35디코더는 이 인코더에서 건네준 정보를 바탕으로
04:39문장을 생성하는 역할을 합니다.
04:41세 번째 단계에서는 단어 간 관계를 이해하는 거예요.
04:452017년에 구글이 발표한 트랜스포머라는 모델 구조가 있는데
04:50이 자연어 처리 과제에서 그동안 하지 못했던 어떤 우수한 성과를 내면서
04:55언어 모형의 발전을 견인시킵니다.
04:59그래서 아마 AI 쪽에 관심이 있다고 하면
05:03이 문장을 보셨을 수 있어요.
05:05Attention is all you need.
05:07Attention이 당신이 필요한 모든 것이다 라고
05:11완전 캐치프레이즈가 되면서
05:13이 AI 업계를 한번 지각변동시키는 문장이 되었습니다.
05:17구글이 발표한 이 논문은 그냥 제목이
05:19attention is all you need.
05:21attention이란 뭔가를 한번 지금 살펴볼게요.
05:25자연어가 들어오면 AI가 이 문장 내 단어들을 이해를 하고
05:29중요한 정보가 뭐고를 추출을 해야 되잖아요.
05:33그랬을 때 이 attention은 그 문장 내에서 중요한 단어를
05:37가중치를 조금 둔다는 기술이에요.
05:41그래서 문장 내에 다른 단어와 언어 관계를 평가해서
05:46A라는 단어가 더 가중치가 높구나
05:49attention을 받아서 생성을 하게 하는 그런 메커니즘이라고
05:53쉽게 한번 이해해 보시면 될 것 같습니다.
05:55이런 식으로 이제 언어의 자연어 처리 성능이 올라왔다 라고 하면
06:00여전히 남은 과제는 어순과 맥락
06:04저희가 1회차부터 맥락 너무 중요하다 라고
06:06말씀을 드리고 있는데
06:07이 맥락을 어떻게 하면 성능에
06:10모델의 추론 성능을 높일 수 있을까 하면서
06:14그때 이제 모델사들이 많이 했던 방식은
06:17인간의 자연어 데이터를 엄청 많이 학습시키자
06:20그러면서 파라미터 수를 늘리면
06:23추론하는 경우의 수가 늘어나면서
06:26문장을 조금 더 자연스럽게 생성하겠다 하여
06:30지금 오늘날의 LLM이 되었습니다.
06:33시초에는 이 모델의 사이즈가 굉장히 작았어요.
06:35그런데 이 자연어의 단어 간 관계
06:38문장 간의 관계
06:39attention mechanism에 의해서
06:41자연어 처리를 너무 잘하니까
06:43성능을 향상시키려고
06:45이제는 규모의 경제로 가기 시작합니다.
06:48프롬프트를 기반으로 해서
06:50이 단어의 분포를 예측해서
06:53자기 회기 방식을 사용을 합니다.
06:55자기 회기 방식이라고 하면
06:57한국어에서 제가 강의를 갈 때마다 쓰는 문장이 있는데
07:01아버지가 방에 들어가신다
07:03라는 그 문장이 가장 좋은 예가 될 수 있어요.
07:06한국에서 교육을 받으신 분들은
07:08남녀노소 할 거 없이
07:10제가 아버지가 그 다음에 뭐가 나오나요?
07:12하면은 방해라고 말씀을 하세요.
07:14바로 LLM이 문장을 생성하는 그런 방식인데요.
07:17아버지가 다음에 방해가 정말 높은 확률로
07:20데이터에서 많이 쓰였기 때문에
07:22아버지가 다음에 예측하는 방식으로 생성을 하고 있고
07:25들어가신다가 나오는 방식이에요.
07:28작년만 하더라도 이 각 모델사들은
07:30누가 누가 모델 사이즈를 크게 키우나의 어떤 경쟁이었어요.
07:34왜냐하면 모델의 크기가 크다라는 건
07:36데이터 수가 많아서
07:38할 수 있는 능력이 많다라는 그런 의미예요.
07:40모델의 크기가 커졌다라는 거에서 시사하는 점이
07:44되게 중요한 게 하나가 있습니다.
07:47뭐냐면 바로
07:48스케일링 로우라는 그런 어떤 법칙이에요.
07:55지금 그래프를 보시면
07:57모델의 사이즈를 키웠더니
07:59어떤 인제 설명할 수 없는데
08:02이 컴퓨터의 성능이 엄청 올라갔다라는
08:05그런 어떤 특이점을 발견하는 지점이 발생을 해요.
08:08마라톤 선수를 생각해보면
08:10계속 달리면 속도가 줄어들 수밖에 없는데
08:14이 모델은
08:15언어 모델은
08:16오히려 크기를 키웠더니
08:18규모의 법칙이 작용을 하여
08:20스케일링 법칙이 발생되면서
08:22모델사들에서
08:24이제 무조건 이제
08:25모델의 사이즈를 키워서
08:27인간이 풀 수 없는 어려운 문제들도 풀고 있고
08:30변호사 시험, 물리학 시험,
08:32박사 수준의 어떤 시험들을 풀게 하고 있는
08:35그런 상황입니다.
08:36그렇다면 저희가 이제 이 LLM, 거대 언어 모델이
08:48어떤 방식으로 자연어를 처리해서
08:51오늘날의 수준까지 올라오는 걸 봤으니
08:54이번에는 문장을 생성하는 핵심 원리에 대해서
08:57살펴보겠습니다.
08:58네 가지 개념을 가지고 한번 설명을 드릴 텐데요.
09:02토큰화, 확률 내측, 샘플릭, 반복적 생성이 원리에 해당이 됩니다.
09:08말들이 조금 어려운데
09:10프롬프트 쓰실 때요.
09:11궁금증이 있다라고 하면
09:13아 내가 쓴 자연어가 이런 원리에서 생성이 되는구나
09:17라고 한번 보시면 좋을 것 같아요.
09:19첫 번째는 토큰이에요.
09:21아까 제가 앞에서
09:23자연어는 컴퓨터 입장에서
09:25큰 덩어리라고 말씀을 드렸잖아요.
09:27그러면 컴퓨터가 이해할 수 있는 작은 단위의 조각조각을 내는 과정이
09:33토큰한데
09:34예를 들어서 인공지능이면
09:36지금 이게 4토큰, 4토큰이 나왔어요.
09:39그리고 영어로 Artificial Intelligence 라고 하면
09:433토큰이 나옵니다.
09:44문법의 어떤 형태 때문에
09:46보통 한국어의 토큰 수가 더 커요.
09:49이렇게 토큰화가 거치고 나면
09:52predict the next token
09:53그래서 한 단어 이후에
09:55다음 단어가 어떤 방식으로 나오는지를 보여주고 있습니다.
10:00철저하게 확률에 의해서 계산되어서
10:03문장이 나오고 있어요.
10:05그래서 LLM에 뭐가 나올지 모르니까
10:07계속 지금 블랙박스라고 표현을 하고요.
10:09처음에 넣는 그 자연어가 어떤 단어인지에 따라서
10:13이 자연어를 숫자로 바꾸고
10:15벡터화 시키고
10:17모델에 넣고
10:19이 네 번째 칼럼에서
10:21여러 가지 단어 후보군이 뽑히고 있어요.
10:24이 LLM은 단어를 여러 가지 후보로 추출을 하겠죠.
10:28그래서 가장 높은 확률로
10:30데이터에서 많이 쓰인 단어가 생성되어서
10:33저희가 결과를 볼 수가 있는 거예요.
10:35그래서
10:36토큰, 확률, 예측 기반의 문장을 생성하고 있습니다.
10:40여러분들이 생성형 AI, CHPT 쓰실 때
10:43아무리 수정해도 비슷한 결과를 얻는 까닭이
10:46바로 이 원리 때문이에요.
10:48확률로 예측하기 때문에
10:50질문을 완전 새롭게 다시 하지 않는 한
10:53유사한 결과 내에서 계속 답변을 받을 수밖에 없는 원리거든요.
10:57그랬을 때
10:58그 다음 중요한 원리는
11:00샘플링입니다.
11:01아버지가 방에 들어가신다
11:03예를 보면
11:04아버지가 방에 들어가신다 말고
11:05아버지가 방에서
11:07주무신다도 될 수가 있잖아요.
11:09그랬을 때
11:10이 언어 모델의
11:11답변의 어떤 창의적인 거
11:14혹은
11:15일관성을 좀 조절하기 위해서 쓸 수 있는 개념인데요.
11:18그래서 여러분들이
11:19왜 CHPT 문장을 썼는데
11:21나 이 문장 마음에 들지 않아
11:23라고 했을 때는
11:24바로 이 샘플링을 적용해 보시면 좋은데
11:26우선 확률분포부터 말씀을 드리면
11:29지금 왼쪽과 오른쪽의 그 그래프를 한번 보시면요.
11:33넓은 경우에는 단어가 선택되는 후보군이 엄청 다양하다라는 거예요.
11:38그래서 내가 문장을 넣고
11:40그 다음에 나오는 문장의 경우의 수가 다채로운 반면
11:43확률분포가 좁은 경우에는
11:45내가 피자를 먹었는데
11:47여전히 뜨거웠다 라고 절대적으로 하나만 걸리고 있죠.
11:50이게 좁은 경우에요.
11:51그래서 넓고 좁게 쓰는 거를 이 원리를 이용하셔서
11:56CHPT나 어떤 생성형 AI한테
11:59나는 확률분포가 넓은 경우에서 단어를 받고 싶어
12:03라고 프롬프트를 써주시거나
12:05나는 확률분포가 좁은 경우에서 써주면 좋겠어
12:08라고 하시면 되는데
12:09장단이 분명합니다.
12:11뭐 소설이나 창의적인 활동을 하실 때는
12:14넓은 경우가 굉장히 다채롭게 나오니까 좋겠지만
12:17도메인이 금융이나 법률이나 어떤 세무나 회계 경우에는
12:22답변이 계속 바뀔수록 좋지가 않아요.
12:24그랬을 땐 좁은 경우로 하셔야
12:26일관적으로 답변을 잘 받을 수가 있겠죠.
12:30그 다음 중요한 개념이 이와 함께 온도라는 게 있어요.
12:34여러분들은 언어의 온도를 느끼시는지는 모르겠는데
12:37프롬프트를 쓰시고 답변의 온도를 조절을 할 수가 있습니다.
12:42온도는 두 가지가 있어요.
12:43하나는 높은 온도가 있고 하나는 낮은 온도가 있어요.
12:47높은 온도는 모델을 뜨겁게 만들어서 문장의 온도를 뜨겁게 내뱉습니다.
12:52그래서 높은 온도라고 설정을 하는 즉시
12:56문장이 굉장히 창의적으로 나와요.
12:58소설이나 예술적인 어떤 활동에 잘 맞겠죠.
13:01낮은 온도라고 하면 0을 말하고요.
13:04낮은 온도는 절대 바뀌지 않는 어떤 문장의 생성값들을 조절할 때 쓰는데
13:10수학 문제를 풀어라고 하면 그 답이 일관적으로 계속 똑같이 나오는 온도예요.
13:15한국의 여름 거리를 묘사해줘.
13:19온도는 템퍼러처라고 쓸게요.
13:24그런데 이번에는 똑같이 하고 템퍼러처를 0으로 해볼게요.
13:43비프 앤 애프터를 비교하면 0이 조금 뭐랄까 드라이하거든요.
14:00그래서 이렇게 조절할 수가 있는데
14:03이거를 프롬프트를 가지고 놀 수 있는 공간이 있어요.
14:07플레이그라운드에서 한번 하면 확연한 차이를 보여드리겠어요.
14:11여기 보시면 이 모델을 미세 조정할 수 있는 값들이 이렇게 있거든요.
14:16그러면 온도를 2에서 0까지 조절할 수가 있어요.
14:20그러면 보통 2로 갈수록 문장이 엄청 창의적으로 나온다고 말씀드렸고
14:250으로 갈수록 몇 번을 생성하더라도 똑같은 결과가 나와요.
14:29여기서 그냥 2로 간다고 하면
14:36보통은 문장이 깨지거나 이런 식으로 너무 높은 온도에서는 생성을 못 하거든요.
14:46보통은 1을 많이 쓰는데
14:52이런 식으로 문장처럼 나오고 있죠.
14:560을 만약에 쓴다고 하면 읽어봤을 때 위하고 또 아래는 좀 다르고요.
15:03이런 식으로 조절해 가는 옵션인데
15:05이거는 개발할 때 쓰는 환경이에요.
15:09가입해서 이걸 API를 가져와서 쓰는데
15:13일반 분들도 다 쓰실 수 있어요.
15:15엔지니어링을 할 때는 이 값 조정하면서 결과값을 만들어가는 과정을 거치고 있어요.
15:20그래서 7GPT한테 이 온도의 개념을 적용해 보셔도 좋을 것 같아요.
15:25그냥 뭔가 쓰고 답변을 받으시지 말고
15:27프롬프트를 미세하게 조정하는 어떤 값들이 될 수 있겠죠.
15:32마지막으로 이해해야 되는 프롬프트를 넣고 받을 때 이해해야 되는
15:36되게 중요한 개념은 반복 생성입니다.
15:39토큰을 자르고 그 다음에 확률 계산에 의해서 문장을 만들어 내기 때문에
15:45보통 한 번 GPT한테 물어보고 마음에 드는 결과 얻기가 쉽지가 않아요.
15:50그래서 한 번 자연어로 물어보고
15:53토큰화 시키고 그 다음에 모델이 처리하면
15:56확률 분포에서 높은 확률로 저희한테 문장을 주고
16:00샘플링을 해서 출력 토큰을 받게 되는데
16:03여러 번 반복시킬수록 답변이 좋아질 수밖에 없습니다.
16:07그래서 반복 생성하는 과정을 거쳐야
16:10여러분들이 쓸만한 만족할 만한 결과를 얻어내실 수 있습니다.
16:15여기까지 저희가 4회차에서 아주 간략하지만
16:18현재 언어 모델이 발달하게 된 어떤 역사적인 흐름 말씀을 드렸고요.
16:24함께 프롬프트가 생성되는 원리를 네 가지 원리에 의해서 말씀을 드렸는데
16:29중요한 건 철저하게 계산되어서 나오는 문장이기 때문에
16:34조금 더 잘 쓰시려면 여러 가지 어떤 기법들
16:37그리고 작성법들을 알아야 돼요.
16:39그래서 다음 회차에 이어서 말씀드리겠습니다.
16:42감사합니다.
16:45감사합니다.
16:47감사합니다.
16:48감사합니다.
16:49감사합니다.
16:50감사합니다.
16:51감사합니다.
16:52감사합니다.
16:53감사합니다.
16:54감사합니다.
16:55감사합니다.
16:57감사합니다.