티스토리 뷰
목차
어쩌다 보니 생성 AI를 이용한 솔루션과 서비스를 개발하는 스타트업에서 일을 하게 되었다.
따라서 가끔 리팩토링 할 때나 사용했던 챗GPT를 위시한 언어모델에 대한 기본적인 이해가 필요해졌는데,
오늘 하루를 투자했지만 아직 잘 손에 잡히지 않는다.
그래도 키워드에 관해 하나씩 정의해 가며 당장 필요한 정보라도 정리하는 걸 목표로.
NLP(Natural Language Processing)
자연 언어 처리, 혹은 자연어 처리는 인공지능의 하위 분야로, 기계가 인간의 언어를 알아들을 수 있게 만드는 학문 분야이다.
그 역사는 길지만 이 글에선 크게 중요하지 않고, 현대의 NLP는 머신러닝과 그에 속한 딥러닝을 이용해
대량의 데이터를 기반으로 학습시키고 개발한다.
조금 더 구체적으로는 머신러닝 전반을 이용해 예측모델, 토큰화, 뉘앙스 분석, 번역 등이 개발되며
그중 하나인 딥러닝의 인공신경망을 이용해 더 복잡한 문법이나 문맥을 이해하고 대답하는 알고리즘이 구현된다.
따라서 NLP는 필연적으로 여러 학문 분야에 걸쳐있는데, 대표적으로는 (당연하게도) 컴퓨터과학, 인공지능,
그리고 자연어 처리로 대표되는 언어공학이 그 예라고 할 수 있다.
초반에 그림을 남발하는 이유는 내가 제대로 이해를 하고 있지 못해서이다.
이렇게라도 큼직하게 선을 그어야 덜 헷갈릴 것 같아서..
어쨌거나 자연어 처리에 대해 선을 그었으니 조금 더 구체적으로 들어가 보자.
Language Model
언어모델은 NLP에서 사용되는 기술 중 가장 기초적인 모델 중 하나로, 언어의 일부(단어, 문장 등)가 주어졌을 때
다음에 등장할 확률이 높은 언어(역시 단어, 문장 등)를 예측하는 모델을 가리킨다.
일반적으로 딥러닝 알고리즘을 이용해 구현되고, 구체적으로는 대량의 데이터를 학습하며
언어의 특징과 문맥을 파악해 가장 확률이 높은 다음 단어를 예측하는 식으로 구성된다.
이어서 예측된 단어를 다시 모델의 입력값으로 사용해(이를 자기 회귀 언어모델이라 한다) 문장이나 문서를 구성할 수 있게 된다.
주로 응용되는 분야는 번역, 요약, 문서 생성 등이며 뒤에서 정리할 GPT-3, 4, 그리고 하이퍼클로바 역시 언어모델의 종류이다.
GPT(Generative Pre-trained Transformer)
GPT는 OpenAI에서 개발한 언어모델이다.
2018년 6월 출시된 GPT-1을 시작으로 15억 개의 매개변수를 가진 GPT-2, 이어서
매개변수의 수를 1750억 개로 대폭 증가시킨 GPT-3, 그 업그레이드 버전인 GPT-3.5,
마지막으로 2023년 3월에 발표한, 이미지 입출력이 가능해진 GPT-4에 이르기까지 개발되어 있다.
ChatGPT는 바로 이 GPT라는 언어모델을 기반으로 하는 대화형 인공지능이며,
GPT-3.5를 기반으로 한 버전은 무료로 사용할 수 있다.
먼저 GPT-3.5와 4를 비교하고, 이어서 자주 쓰이는 용어에 대해 정리하고 가자.
GPT-3.5 vs. GPT-4
GPT-3.5는 1750억 개라는 방대한 파라미터를 가진 크고 아름다운 GPT-3을 압축한 모델이다.
추가적인 언어 학습 데이터를 포함하면서도 파라미터를 60억 개로 줄여 더 가볍게 사용할 수 있게 되었다.
이를 위해 생성된 문장의 질이 미세하게 감소되었으나 위에 적었듯 작은 기업과 개인의 접근성이 좋아졌다는 장점이 있다.
추가로 GPT-3.5는 특히 소프트웨어 공학에서 높은 정확도를 보이며, 이는 노코드 툴 개발에 큰 도움이 된다고 한다.
이어서 GPT-4는 약 1000억 개의 파라미터를 가진 언어 모델이다.
가장 큰 차이점은 이미지와 언어를 동시에 다룰 수 있다는 특징이며,
GPT-3.5에 비해 전반적인 성능 향상이 있었고 처리할 수 있는 토큰의 양(Limit)이 4000 → 32000개로 증가했다.
HyperCLOVA
하이퍼 클로바는 네이버에서 2021년 5월 공개한, 이를테면 한국어에 최적화된 언어모델이다.
총 매개변수는 2040억 개이지만 그중 한국어의 비중이 높아(약 97%) GPT-3 대비 6500배의 한국어 데이터가 있다고 한다.
이를 위해 네이버는 외부 클라우드가 아닌 700 페타플롭스 규모의 슈퍼컴퓨터 환경을 자체 구축해
대용량 처리를 위한 인프라를 확보했다.
참고로 여기서 1 페타플롭이란 1초에 1000조 번의 연산을 처리하는 성능을 가리킨다.
네이버는 이어서 2023년 7월에 이를 업그레이드한 '하이퍼클로바X'를 공개할 예정이며,
이를 통해 초대규모 AI 상용화를 주도하겠다는 입장이다.
또한 소규모 기업이나 스타트업에서 쉽게 사용할 수 있도록 지원하고 있으며,
내가 몸담게 될 회사의 서비스 역시 그 리스트에 이름을 올리고 있다.
Terminology
계속해서 위와 같은 언어모델을 다룰 때 필요한 용어에 대해 정리하고 가자.
Prompt
프롬프트는 챗봇을 사용할 때 사용자가 입력하는 대화문을 가리킨다.
단순한 질문이나 대화를 포함해, 대상 AI의 역할과 이름, 사전지식을 미리 정의해 주는 데 사용되는 모든 것을 가리킨다.
Response
프롬프트에 대한 AI의 답변을 가리킨다.
Token, Limit
ES에서 접해 익숙한 토큰은 문자열을 쪼갠 단위를 가리킨다.
일반적으로 단어와 비슷한 뜻이라고 생각해도 크게 틀리지 않지만, 머신러닝 모델의 입력으로 들어가기 위해
조사 등을 더 세분화해서 쪼갠다는 차이점이 있다.
계속해서 리미트는 위에도 잠깐 언급했듯이 해당 모델이 한 번에 처리할 수 있는 토큰의 길이를 가리킨다.
GPT-3.5의 경우 대략 4000개, GPT-4의 경우 대략 32000개의 토큰을 한 번에 처리할 수 있으며,
한국어의 경우 최적화가 되어있지 않아 실제 처리 가능한 단어는 이보다 적다고 한다.
Generate AI
생성 AI, 혹은 생성형 AI는 예측이라는 언어모델의 기능에서 한걸음 더 나아간,
사용자의 요구에 따라 새로운 데이터를 생성하는 인공지능 기술을 가리킨다.
주로 텍스트, 이미지에 사용되지만 최근엔 음성, 음악, 영상 등의 컨텐츠 생성에도 폭넓게 사용되며
인코딩 과정만 필요한 보통의 딥러닝 모델과 달리 인공지능의 출력을 적절히 표현할 디코딩 과정이 추가로 필요하다.
'Development > etc.' 카테고리의 다른 글
[Marketing]블로그로 돈 벌기 (0) | 2023.05.12 |
---|
- Total
- Today
- Yesterday
- Backjoon
- 기술면접
- 중남미
- 자바
- a6000
- 면접 준비
- 스트림
- 남미
- 리스트
- 백준
- 맛집
- 유럽
- 동적계획법
- 지지
- Algorithm
- 파이썬
- 세계여행
- 유럽여행
- 알고리즘
- spring
- 스프링
- 칼이사
- 야경
- BOJ
- Python
- 세모
- 여행
- java
- RX100M5
- 세계일주
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |