클래스 e 1.250703

ontvkorea

Dailymotion에서 클래스 e 1.250703 - ontvkorea 시청

Transcript

00:00다음 영상에서 만나요.

00:30다음 영상에서 만나요.

01:00저희가 1, 2, 3회차에서는요. 프롬프트와 프롬프트 엔지니어링의 개념, 그리고 인간과 인간 사이의 대화 메커니즘, 상호작용과의 어떤 관계에 대해서 살펴봤다면 이번 회차부터는 문장을 생성하는 원리, LLM에 대해서 조금 더 깊게 이해해보는 시간을 가져보겠습니다.

01:191, 2, 3회차에서는요.

01:26라진 앵구시 마르일이라는 이 거대 언어 모델의 발전 과정에 대해서 한번 살펴볼 텐데요.

01:33채취피티 이전에도 이 언어 모형이 존재했었습니다.

01:37이 언어 모형이라고 하면 쉽게 말을 하면 언어를 AI가 어떻게 분석하고 이해하는지에 대한 연구 분야였어요.

01:48NLP라는 내추럴 랑구지 프로세싱이라는 자연어 처리하는 방식이 있었는데 이 자연어 고유의 어떤 특징들, 예를 들어서 한국어가 굉장히 어려운 언어라고 말씀드렸잖아요.

02:01그래서 한국어는 단어, 문법, 뉘앙스, 문화적인 어떤 복합적인 요소로 구성이 되어 있어서 NLP라는 어떤 자연어 처리하는 기법에 있어서 난관이 많았는데

02:14채취피티가 만들어지고 나서 인간의 자연어를 조금 더 잘 이해하고 똑똑한 언어 모델이 나오게 되었습니다.

02:23그러면 이 모델이 어떻게 만들어지게 되었는지를 한번 순차적으로 살펴볼게요.

02:28발전 과정은 총 4가지 단계를 밟습니다.

02:32첫 번째, 언어의 수치화, 두 번째는 어순 맥락의 이해, 세 번째는 단어 간 관계의 이해, 네 번째는 모형의 성능 재고예요.

02:42우선 자연어는 컴퓨터 입장에서는 굉장히 큰 덩어리예요.

02:47코드는 0과 1로 처리를 해서 0 아니면 1인 굉장히 이분법적인 사고로 이루어져 있는데

02:54자연어 같은 경우는 쉽게 예를 들면

02:58빨간색이라고 하면 불구스름하다, 불그레하다

03:02아니면 뭔가 진짜 새빨갛다

03:04한국어의 색깔 표현 엄청 다양하게 있잖아요.

03:06이런 어떤 자연어의 미묘함과 섬세함을 0과 1로 나누기가 굉장히 어렵죠.

03:12그래서 언어를 수치화를 좀 해야 하는데

03:16그랬을 때 컴퓨터가 이해할 수 있는 그 조각들이 있어요.

03:22그래서 이거를 벡터로 바꾼다고 하고요.

03:24벡터는 숫자를 의미합니다.

03:26그래서 인베딩에서 시작을 합니다.

03:28만약에 예를 들어서 인공지능이라고 하면

03:30이거를 인공지능을 컴퓨터가 이해할 수 있는 단어의 조각으로 바꾸는 작업이에요.

03:36두 번째는 어순과 맥락을 이해를 합니다.

03:42언어에는 어순이라는 게 존재해요.

03:44영어에는 주어가 먼저 나오고

03:46동사가 나오고 목적어가 나온다고 하면

03:48한국어는 반대로 주어, 목적어, 동사가 나오는 구조죠.

03:52그래서 인러닝 구조를 활용해서

03:54인간의 언어를 시계열이나 맥락 처리하는 방식으로 이해를 시키죠.

04:00그럼 다음에 세 번째는 넘어가기 전에

04:04인코더와 디코더라는 개념에 대해서 잠깐만 살펴볼게요.

04:08인간의 그 언어 문장을 AI가 어떻게 이해할 것인가

04:12언어 모델이 어떻게 이해하는가 라고 한다고 하면

04:16이 인코더와 디코더의 과정을 거치는데요.

04:19인코더 같은 경우는 문장에서 나열된 순서대로

04:23언어가 입력이 되고 그런 식으로 이해를 해서

04:27중요한 정보를 추출해서 요약하는 방식이 인코더고요.

04:31인코더가 이런 식으로 처리한 것을 디코더한테 해주면

04:35디코더는 이 인코더에서 건네준 정보를 바탕으로

04:39문장을 생성하는 역할을 합니다.

04:41세 번째 단계에서는 단어 간 관계를 이해하는 거예요.

04:452017년에 구글이 발표한 트랜스포머라는 모델 구조가 있는데

04:50이 자연어 처리 과제에서 그동안 하지 못했던 어떤 우수한 성과를 내면서

04:55언어 모형의 발전을 견인시킵니다.

04:59그래서 아마 AI 쪽에 관심이 있다고 하면

05:03이 문장을 보셨을 수 있어요.

05:05Attention is all you need.

05:07Attention이 당신이 필요한 모든 것이다 라고

05:11완전 캐치프레이즈가 되면서

05:13이 AI 업계를 한번 지각변동시키는 문장이 되었습니다.

05:17구글이 발표한 이 논문은 그냥 제목이

05:19attention is all you need.

05:21attention이란 뭔가를 한번 지금 살펴볼게요.

05:25자연어가 들어오면 AI가 이 문장 내 단어들을 이해를 하고

05:29중요한 정보가 뭐고를 추출을 해야 되잖아요.

05:33그랬을 때 이 attention은 그 문장 내에서 중요한 단어를

05:37가중치를 조금 둔다는 기술이에요.

05:41그래서 문장 내에 다른 단어와 언어 관계를 평가해서

05:46A라는 단어가 더 가중치가 높구나

05:49attention을 받아서 생성을 하게 하는 그런 메커니즘이라고

05:53쉽게 한번 이해해 보시면 될 것 같습니다.

05:55이런 식으로 이제 언어의 자연어 처리 성능이 올라왔다 라고 하면

06:00여전히 남은 과제는 어순과 맥락

06:04저희가 1회차부터 맥락 너무 중요하다 라고

06:06말씀을 드리고 있는데

06:07이 맥락을 어떻게 하면 성능에

06:10모델의 추론 성능을 높일 수 있을까 하면서

06:14그때 이제 모델사들이 많이 했던 방식은

06:17인간의 자연어 데이터를 엄청 많이 학습시키자

06:20그러면서 파라미터 수를 늘리면

06:23추론하는 경우의 수가 늘어나면서

06:26문장을 조금 더 자연스럽게 생성하겠다 하여

06:30지금 오늘날의 LLM이 되었습니다.

06:33시초에는 이 모델의 사이즈가 굉장히 작았어요.

06:35그런데 이 자연어의 단어 간 관계

06:38문장 간의 관계

06:39attention mechanism에 의해서

06:41자연어 처리를 너무 잘하니까

06:43성능을 향상시키려고

06:45이제는 규모의 경제로 가기 시작합니다.

06:48프롬프트를 기반으로 해서

06:50이 단어의 분포를 예측해서

06:53자기 회기 방식을 사용을 합니다.

06:55자기 회기 방식이라고 하면

06:57한국어에서 제가 강의를 갈 때마다 쓰는 문장이 있는데

07:01아버지가 방에 들어가신다

07:03라는 그 문장이 가장 좋은 예가 될 수 있어요.

07:06한국에서 교육을 받으신 분들은

07:08남녀노소 할 거 없이

07:10제가 아버지가 그 다음에 뭐가 나오나요?

07:12하면은 방해라고 말씀을 하세요.

07:14바로 LLM이 문장을 생성하는 그런 방식인데요.

07:17아버지가 다음에 방해가 정말 높은 확률로

07:20데이터에서 많이 쓰였기 때문에

07:22아버지가 다음에 예측하는 방식으로 생성을 하고 있고

07:25들어가신다가 나오는 방식이에요.

07:28작년만 하더라도 이 각 모델사들은

07:30누가 누가 모델 사이즈를 크게 키우나의 어떤 경쟁이었어요.

07:34왜냐하면 모델의 크기가 크다라는 건

07:36데이터 수가 많아서

07:38할 수 있는 능력이 많다라는 그런 의미예요.

07:40모델의 크기가 커졌다라는 거에서 시사하는 점이

07:44되게 중요한 게 하나가 있습니다.

07:47뭐냐면 바로

07:48스케일링 로우라는 그런 어떤 법칙이에요.

07:55지금 그래프를 보시면

07:57모델의 사이즈를 키웠더니

07:59어떤 인제 설명할 수 없는데

08:02이 컴퓨터의 성능이 엄청 올라갔다라는

08:05그런 어떤 특이점을 발견하는 지점이 발생을 해요.

08:08마라톤 선수를 생각해보면

08:10계속 달리면 속도가 줄어들 수밖에 없는데

08:14이 모델은

08:15언어 모델은

08:16오히려 크기를 키웠더니

08:18규모의 법칙이 작용을 하여

08:20스케일링 법칙이 발생되면서

08:22모델사들에서

08:24이제 무조건 이제

08:25모델의 사이즈를 키워서

08:27인간이 풀 수 없는 어려운 문제들도 풀고 있고

08:30변호사 시험, 물리학 시험,

08:32박사 수준의 어떤 시험들을 풀게 하고 있는

08:35그런 상황입니다.

08:36그렇다면 저희가 이제 이 LLM, 거대 언어 모델이

08:48어떤 방식으로 자연어를 처리해서

08:51오늘날의 수준까지 올라오는 걸 봤으니

08:54이번에는 문장을 생성하는 핵심 원리에 대해서

08:57살펴보겠습니다.

08:58네 가지 개념을 가지고 한번 설명을 드릴 텐데요.

09:02토큰화, 확률 내측, 샘플릭, 반복적 생성이 원리에 해당이 됩니다.

09:08말들이 조금 어려운데

09:10프롬프트 쓰실 때요.

09:11궁금증이 있다라고 하면

09:13아 내가 쓴 자연어가 이런 원리에서 생성이 되는구나

09:17라고 한번 보시면 좋을 것 같아요.

09:19첫 번째는 토큰이에요.

09:21아까 제가 앞에서

09:23자연어는 컴퓨터 입장에서

09:25큰 덩어리라고 말씀을 드렸잖아요.

09:27그러면 컴퓨터가 이해할 수 있는 작은 단위의 조각조각을 내는 과정이

09:33토큰한데

09:34예를 들어서 인공지능이면

09:36지금 이게 4토큰, 4토큰이 나왔어요.

09:39그리고 영어로 Artificial Intelligence 라고 하면

09:433토큰이 나옵니다.

09:44문법의 어떤 형태 때문에

09:46보통 한국어의 토큰 수가 더 커요.

09:49이렇게 토큰화가 거치고 나면

09:52predict the next token

09:53그래서 한 단어 이후에

09:55다음 단어가 어떤 방식으로 나오는지를 보여주고 있습니다.

10:00철저하게 확률에 의해서 계산되어서

10:03문장이 나오고 있어요.

10:05그래서 LLM에 뭐가 나올지 모르니까

10:07계속 지금 블랙박스라고 표현을 하고요.

10:09처음에 넣는 그 자연어가 어떤 단어인지에 따라서

10:13이 자연어를 숫자로 바꾸고

10:15벡터화 시키고

10:17모델에 넣고

10:19이 네 번째 칼럼에서

10:21여러 가지 단어 후보군이 뽑히고 있어요.

10:24이 LLM은 단어를 여러 가지 후보로 추출을 하겠죠.

10:28그래서 가장 높은 확률로

10:30데이터에서 많이 쓰인 단어가 생성되어서

10:33저희가 결과를 볼 수가 있는 거예요.

10:35그래서

10:36토큰, 확률, 예측 기반의 문장을 생성하고 있습니다.

10:40여러분들이 생성형 AI, CHPT 쓰실 때

10:43아무리 수정해도 비슷한 결과를 얻는 까닭이

10:46바로 이 원리 때문이에요.

10:48확률로 예측하기 때문에

10:50질문을 완전 새롭게 다시 하지 않는 한

10:53유사한 결과 내에서 계속 답변을 받을 수밖에 없는 원리거든요.

10:57그랬을 때

10:58그 다음 중요한 원리는

11:00샘플링입니다.

11:01아버지가 방에 들어가신다

11:03예를 보면

11:04아버지가 방에 들어가신다 말고

11:05아버지가 방에서

11:07주무신다도 될 수가 있잖아요.

11:09그랬을 때

11:10이 언어 모델의

11:11답변의 어떤 창의적인 거

11:14혹은

11:15일관성을 좀 조절하기 위해서 쓸 수 있는 개념인데요.

11:18그래서 여러분들이

11:19왜 CHPT 문장을 썼는데

11:21나 이 문장 마음에 들지 않아

11:23라고 했을 때는

11:24바로 이 샘플링을 적용해 보시면 좋은데

11:26우선 확률분포부터 말씀을 드리면

11:29지금 왼쪽과 오른쪽의 그 그래프를 한번 보시면요.

11:33넓은 경우에는 단어가 선택되는 후보군이 엄청 다양하다라는 거예요.

11:38그래서 내가 문장을 넣고

11:40그 다음에 나오는 문장의 경우의 수가 다채로운 반면

11:43확률분포가 좁은 경우에는

11:45내가 피자를 먹었는데

11:47여전히 뜨거웠다 라고 절대적으로 하나만 걸리고 있죠.

11:50이게 좁은 경우에요.

11:51그래서 넓고 좁게 쓰는 거를 이 원리를 이용하셔서

11:56CHPT나 어떤 생성형 AI한테

11:59나는 확률분포가 넓은 경우에서 단어를 받고 싶어

12:03라고 프롬프트를 써주시거나

12:05나는 확률분포가 좁은 경우에서 써주면 좋겠어

12:08라고 하시면 되는데

12:09장단이 분명합니다.

12:11뭐 소설이나 창의적인 활동을 하실 때는

12:14넓은 경우가 굉장히 다채롭게 나오니까 좋겠지만

12:17도메인이 금융이나 법률이나 어떤 세무나 회계 경우에는

12:22답변이 계속 바뀔수록 좋지가 않아요.

12:24그랬을 땐 좁은 경우로 하셔야

12:26일관적으로 답변을 잘 받을 수가 있겠죠.

12:30그 다음 중요한 개념이 이와 함께 온도라는 게 있어요.

12:34여러분들은 언어의 온도를 느끼시는지는 모르겠는데

12:37프롬프트를 쓰시고 답변의 온도를 조절을 할 수가 있습니다.

12:42온도는 두 가지가 있어요.

12:43하나는 높은 온도가 있고 하나는 낮은 온도가 있어요.

12:47높은 온도는 모델을 뜨겁게 만들어서 문장의 온도를 뜨겁게 내뱉습니다.

12:52그래서 높은 온도라고 설정을 하는 즉시

12:56문장이 굉장히 창의적으로 나와요.

12:58소설이나 예술적인 어떤 활동에 잘 맞겠죠.

13:01낮은 온도라고 하면 0을 말하고요.

13:04낮은 온도는 절대 바뀌지 않는 어떤 문장의 생성값들을 조절할 때 쓰는데

13:10수학 문제를 풀어라고 하면 그 답이 일관적으로 계속 똑같이 나오는 온도예요.

13:15한국의 여름 거리를 묘사해줘.

13:19온도는 템퍼러처라고 쓸게요.

13:24그런데 이번에는 똑같이 하고 템퍼러처를 0으로 해볼게요.

13:43비프 앤 애프터를 비교하면 0이 조금 뭐랄까 드라이하거든요.

14:00그래서 이렇게 조절할 수가 있는데

14:03이거를 프롬프트를 가지고 놀 수 있는 공간이 있어요.

14:07플레이그라운드에서 한번 하면 확연한 차이를 보여드리겠어요.

14:11여기 보시면 이 모델을 미세 조정할 수 있는 값들이 이렇게 있거든요.

14:16그러면 온도를 2에서 0까지 조절할 수가 있어요.

14:20그러면 보통 2로 갈수록 문장이 엄청 창의적으로 나온다고 말씀드렸고

14:250으로 갈수록 몇 번을 생성하더라도 똑같은 결과가 나와요.

14:29여기서 그냥 2로 간다고 하면

14:36보통은 문장이 깨지거나 이런 식으로 너무 높은 온도에서는 생성을 못 하거든요.

14:46보통은 1을 많이 쓰는데

14:52이런 식으로 문장처럼 나오고 있죠.

14:560을 만약에 쓴다고 하면 읽어봤을 때 위하고 또 아래는 좀 다르고요.

15:03이런 식으로 조절해 가는 옵션인데

15:05이거는 개발할 때 쓰는 환경이에요.

15:09가입해서 이걸 API를 가져와서 쓰는데

15:13일반 분들도 다 쓰실 수 있어요.

15:15엔지니어링을 할 때는 이 값 조정하면서 결과값을 만들어가는 과정을 거치고 있어요.

15:20그래서 7GPT한테 이 온도의 개념을 적용해 보셔도 좋을 것 같아요.

15:25그냥 뭔가 쓰고 답변을 받으시지 말고

15:27프롬프트를 미세하게 조정하는 어떤 값들이 될 수 있겠죠.

15:32마지막으로 이해해야 되는 프롬프트를 넣고 받을 때 이해해야 되는

15:36되게 중요한 개념은 반복 생성입니다.

15:39토큰을 자르고 그 다음에 확률 계산에 의해서 문장을 만들어 내기 때문에

15:45보통 한 번 GPT한테 물어보고 마음에 드는 결과 얻기가 쉽지가 않아요.

15:50그래서 한 번 자연어로 물어보고

15:53토큰화 시키고 그 다음에 모델이 처리하면

15:56확률 분포에서 높은 확률로 저희한테 문장을 주고

16:00샘플링을 해서 출력 토큰을 받게 되는데

16:03여러 번 반복시킬수록 답변이 좋아질 수밖에 없습니다.

16:07그래서 반복 생성하는 과정을 거쳐야

16:10여러분들이 쓸만한 만족할 만한 결과를 얻어내실 수 있습니다.

16:15여기까지 저희가 4회차에서 아주 간략하지만

16:18현재 언어 모델이 발달하게 된 어떤 역사적인 흐름 말씀을 드렸고요.

16:24함께 프롬프트가 생성되는 원리를 네 가지 원리에 의해서 말씀을 드렸는데

16:29중요한 건 철저하게 계산되어서 나오는 문장이기 때문에

16:34조금 더 잘 쓰시려면 여러 가지 어떤 기법들

16:37그리고 작성법들을 알아야 돼요.

16:39그래서 다음 회차에 이어서 말씀드리겠습니다.

16:42감사합니다.

16:45감사합니다.

16:47감사합니다.

16:48감사합니다.

16:49감사합니다.

16:50감사합니다.

16:51감사합니다.

16:52감사합니다.

16:53감사합니다.

16:54감사합니다.

16:55감사합니다.

16:57감사합니다.

카테고리

트랜스크립트

추천