대규모 언어 모델(LLM)이 더 커지고, 더 나아지고 있습니다. (원제: Large language models are getting bigger and better)

최근 빠르게 주목받고 있는 생성형 AI 열풍에 대해 알아보고, 대규모 언어 모델(LLM)의 성능을 개선하는 방법을 데이터 확보와 컴퓨팅 성능 개선 관점에서 하나씩 소개합니다.

Aug 02, 2024

대규모 언어 모델(LLM)이 더 커지고, 더 나아지고 있습니다. (원제: Large language models are getting bigger and better)

Contents

1. 인공지능(AI) 기술 발전 속도와 전망 1) 놀라운 속도로 발전하는 인공지능(AI) 기술 2) AI 발전에 대한 기대와 투자 열기 2. 데이터 부족 해결하는 방법 1) 데이터 구매 2) 새로운 데이터 생성 3) 합성 데이터(Synthetic Data) 생성 4) 셀프 플레이(Self-play)3. 컴퓨팅 성능 개선 방법 1) AI 전용 칩 사용 2) 인간의 뇌 알고리즘 적용 3) 트랜스포머 기반 모델 사용 4) 대안 아키텍처 ‘맘바(Mamba)’ 고안 5) LLM 추론 및 계획 능력 향상 6) JEPA 프레임 워크 제안

출처: The Economist

1. 인공지능(AI) 기술 발전 속도와 전망

1) 놀라운 속도로 발전하는 인공지능(AI) 기술

출처: Wepost

AI의 세계에서 어떤 기술이 ‘놀라운 것’에서 ‘구식’으로 평가되기까지의 시간은 빛의 속도처럼 빠릅니다. 불과 18개월 전 오픈AI의 챗봇인 ChatGPT가 출시되면서 AI 열풍이 불기 시작했는데요. 오늘날에는 그 능력이 흔하게 느껴질 정도가 됐습니다. 이후 앤트로픽(Anthropic), 구글, 메타와 같은 여러 회사가 다양한 방식으로 ChatGPT를 개선한 자체 모델 클로드(Claude), 제미나이(Gemini), 라마(Llama)를 공개했습니다.

새로운 것에 대한 갈망은 커지기만 합니다. 3월에 앤트로픽은 각종 순위표에서 오픈AI와 구글의 이전 상위 모델을 제친 클로드 3(Claude 3)을 출시했습니다. 이어 4월 9일 오픈AI는 모델을 조정하여 일부 항목에서 왕좌를 되찾았습니다. 곧바로 4월 18일 메타는 초기 결과 상 현재까지 가장 성능이 뛰어난 개방형 모델 라마 3을 출시했죠.

오픈AI는 올해 중 현재의 GPT-4를 뛰어넘는 GPT-5를 출시해 큰 반향을 일으킬 것으로 보입니다. 알려지기로, 차세대 모델은 단순히 프롬프트에 응답하는 것이 아니라 다중 스텝(multi-step) 작업을 수행하거나, 답변을 무작정 내놓는 대신 복잡한 질문을 면밀히 분석하는 등 훨씬 더 놀라운 성능을 발휘할 것이라고 합니다.

2) AI 발전에 대한 기대와 투자 열기

출처: TWN

AI가 과대광고라고 생각하는 분들은 투자자들이 차세대 모델을 지원하는 데 매우 진지하게 임하고 있다는 점을 생각해 보세요.

GPT-5와 다른 차세대 모델은 훈련하는 데 수십억 달러의 비용이 들 것으로 예상됩니다. 오픈AI는 또한 거대 기술 기업인 마이크로소프트와 제휴하여 1,000억 달러 규모의 새로운 데이터 센터를 건설하고 있는 것으로 알려졌는데요. 수치만 놓고 보면 앞으로 기하급수적 성장이 가능할 것으로 보입니다.

이는 많은 AI 연구자들이 '스케일링 가설(Scaling Hypothesis)'이라고 부르는 견해, 즉 현재 머신러닝의 아키텍처가 경이로운 발전을 이루는 길목에 있다는 견해와 일맥상통합니다. 이 가설에 따르면 인간의 능력을 뛰어넘기 위해 필요한 것은 그저 더 많은 데이터와 더 강력한 컴퓨터 칩뿐입니다.

2. 데이터 부족 해결하는 방법

하지만 기술적인 측면을 자세히 들여다보면 몇 가지 어려움이 분명해지는데요. 가장 즉각적인 병목 현상은 데이터일 수 있습니다. 연구 기관인 에포크 AI(Epoch AI)는 2026년에 공공 인터넷의 고품질 텍스트 데이터가 고갈될 것이라고 예상합니다. 연구자들은 해결 방안을 찾기 위해 고군분투하고 있는데요.

1) 데이터 구매

출처: KD nuggets

일부 연구소는 프라이빗 웹(Private Web)으로 눈을 돌려 브로커와 뉴스 웹사이트로부터 데이터를 구매하고 있습니다. 다른 연구실에서는 인터넷의 방대한 양의 오디오와 시각 데이터를 활용하여 수십 년 동안 더 큰 규모의 모델을 학습시키는 방법을 찾고 있습니다.

동영상은 특히 AI 모델에 주변 세계의 물리학을 가르치는 데 유용할 수 있는데요. 모델이 공중을 날아가는 공을 관찰할 수 있다면, 발사체의 움직임을 설명하는 수학 방정식을 더 쉽게 풀 수 있습니다. GPT-4 및 Gemini와 같은 선도 모델은 ‘멀티모달(Multimodal)’ 모델로서, 영상, 음악 등 다양한 유형의 데이터를 처리할 수 있습니다.

2) 새로운 데이터 생성

출처: salon

더 이상 데이터를 찾을 수 없다면, 데이터를 만들 수도 있습니다. 스케일 AI(Scale AI)와 서지 AI(Surge AI) 같은 회사는 수학이나 생물학 문제를 풀 박사급 연구원을 포함해 데이터를 직접 생성하고 라벨링할 대규모 인력 네트워크를 구축했습니다. 선도 AI 스타트업의 한 임원은 이로 인해 AI 연구소가 연간 수억 달러의 비용을 지출하고 있다고 추정합니다.

3) 합성 데이터(Synthetic Data) 생성

출처: Statice

더 저렴한 접근 방식은 하나의 LLM이 수십억 페이지의 텍스트를 만들어 두 번째 모델을 학습시키는 '합성 데이터(Synthetic Data)'를 생성하는 것입니다. 다만 이러한 방식으로 학습된 모델은 과거의 지식을 잃어버리고 창의적이지 못한 반응을 보일 수 있다는 문제가 있습니다.

4) 셀프 플레이(Self-play)

출처: ChessNetwork

합성 데이터로 AI 모델을 훈련하는 더 효과적인 방법은 협업이나 경쟁을 통해 학습하게 하는 것입니다. 연구자들은 이를 '셀프 플레이(Self-play)'라고 부릅니다. 2017년 AI 연구소인 구글 딥마인드는 알파고라는 모델을 개발하여 스스로를 상대로 훈련한 끝에 바둑 게임에서 인간 세계 챔피언을 이겼습니다. 현재 구글과 다른 기업들도 최신 학습 기계 학습에 유사한 기술을 사용하고 있습니다.

셀프 플레이와 같은 아이디어를 새로운 영역으로 확장하는 것은 연구계의 뜨거운 주제입니다. 하지만 사업 운영부터 훌륭한 의사가 되는 것까지 대부분의 현실 세계 문제는 게임보다 더 복잡하며 명확한 승산이 없는 경우가 많습니다. 그렇기 때문에 이러한 복잡한 영역에서는 좋은 응답과 나쁜 응답을 구분할 수 있는 사람들의 데이터를 통해 모델을 학습시켜야 합니다. 이는 결국 속도를 늦추게 됩니다.

3. 컴퓨팅 성능 개선 방법

1) AI 전용 칩 사용

출처: NVIDIA

더 나은 하드웨어는 더 강력한 모델로 가는 또 다른 길입니다. 원래 비디오 게임용으로 설계된 그래픽 처리 장치(GPU)는 집중적인 연산을 병렬로 실행할 수 있는 능력 덕분에 대부분의 AI 프로그래머가 선호하는 칩이 되었습니다.

새로운 기능을 활용할 수 있는 한 가지 방법은 AI 모델용으로 특별히 설계된 칩을 사용하는 것입니다. 실리콘밸리에 본사를 둔 칩 제조업체 세레브라스(Cerebras)는 지난 3월에 현존 최대 GPU보다 50배 많은 트랜지스터가 포함된 제품을 출시했습니다. 모델 구축은 일반적으로 모델이 학습될 때 데이터를 지속적으로 GPU에 입출력 시켜야 하기 때문에 어려움을 겪습니다. 반면에 세레브라스의 거대한 칩에는 메모리가 내장되어 있어 입출력할 필요가 없습니다.

이러한 발전을 활용하는 새로운 모델은 더 안정적이고 사용자의 까다로운 요청을 더 잘 처리할 수 있을 것입니다. 그중 한 가지 방법은 사용자가 요청을 할 때 모델에 입력할 수 있는 텍스트, 이미지 또는 비디오의 양인 '컨텍스트 창(Context Windows)'을 더 크게 만드는 것입니다. 사용자가 관련 정보를 추가로 업로드할 수 있도록 컨텍스트 창을 확대하는 것도 AI 모델이 만들어낸 정보로 자신 있게 질문에 답하는 경향인 “환각”을 억제하는 효과적인 방법인 것으로 보입니다.

2) 인간의 뇌 알고리즘 적용

출처: RCM

그러나 일부 모델 제작자들이 더 많은 리소스를 확보하기 위해 경쟁하는 동안에 다른 모델 제작자들은 스케일링 가설에 문제가 생길 조짐을 알아차리고 있는데요. 예를 들어 메모리 부족이나 에너지 비용 상승과 같은 물리적 제약은 더 큰 모델 설계에 실질적인 제한을 가합니다. 더 걱정스러운 것은 컨텍스트 창을 확장하는 것만으로는 지속적인 발전을 이룰 수 있을지 불투명하다는 점입니다. 메타의 유명한 AI 과학자인 얀 르쿤(Yann LeCun)은 AI 모델을 더 많이 만들어낸다고 해서 현재 AI 모델의 한계를 극복할 수는 없다고 생각하는 많은 사람 중 한 명입니다.

따라서 일부 과학자들은 AI 분야에서 오랜 영감의 원천인 인간의 뇌에 눈을 돌리고 있습니다. 일반 성인은 더 적은 전력과 훨씬 적은 데이터를 사용하면서도 최고의 머신러닝 모델보다 훨씬 더 나은 추론과 계획을 세울 수 있습니다. 워싱턴 대학의 컴퓨터 과학자 페드로 도밍고스(Pedro Domingos)는 "AI에는 더 나은 학습 알고리즘이 필요하며, 인간의 뇌에는 이러한 알고리즘이 있다는 것을 알고 있습니다"라고 말합니다.

그가 지적하는 문제는 LLM이 학습하는 알고리즘, 즉 역전파라고 불리는 알고리즘이입니다. LLM은 학습 과정에서 자신의 예측과 현실을 비교 후 차이가 발생하면 계산 집약적이고 점진적으로 신경망을 조정하고 있죠.

3) 트랜스포머 기반 모델 사용

출처: NVIDIA

LLM 신경망은 비효율적으로 구성되어 있기도 했습니다. 2017년부터 대부분의 AI 모델은 데이터 세트 내에서 멀리 떨어져 있는 데이터 비트 간의 관계를 설정할 수 있는 트랜스포머(GPT의 ‘T’)로 알려진 일종의 신경망 아키텍처를 사용했습니다. 이전의 접근 방식은 이러한 장거리 연결에 어려움을 겪었습니다.

예를 들어, 트랜스포머 기반 모델에 노래 가사를 작성하라는 요청을 받으면 후렴구에서 앞부분 대사를 반복할 수 있지만, 이전 모델은 노래가 끝날 때쯤이면 시작 부분을 모두 잊어버립니다. 또한 트랜스포머는 한 번에 여러 프로세서에서 실행할 수 있어 훈련에 걸리는 시간을 크게 단축할 수 있습니다.

4) 대안 아키텍처 ‘맘바(Mamba)’ 고안

출처: UNITE AI

카네기 멜론 대학의 컴퓨터 과학자 앨버트 구(Albert Gu)는 트랜스포머의 수명 또한 곧 끝날 것이라고 생각합니다. 컨텍스트 창을 확장하는 것은 계산적으로 매우 비효율적인데, 입력이 두 배가 되면 이를 처리하는 데 필요한 계산량이 네 배로 증가하기 때문입니다.

구 박사는 프린스턴 대학교의 트리 다오와 함께 ‘맘바(Mamba)’라는 대안 아키텍처를 고안해 냈습니다. 비유하자면, 트랜스포머가 책의 모든 페이지를 한 번에 읽는다면, 맘바는 순차적으로 읽으면서 세계관을 업데이트하는 방식입니다. 이는 더 효율적일 뿐만 아니라 인간의 이해 방식에 더 가깝게 다가갈 수 있습니다.

5) LLM 추론 및 계획 능력 향상

출처: Medium

LLM의 추론과 계획 능력 향상에는 도움이 필요합니다. 오픈AI의 연구원이었던 안드레이 카르파티(Andrej Karpathy)는 최근 강연에서 현재의 LLM은 '시스템 1(System 1)’ 사고만 할 수 있다고 설명했습니다. 이는 즉각적인 의사 결정에 관여하는 직관적 사고방식입니다. 이와 대조적으로 '시스템 2(System 2)' 사고는 더 침착하고 의식적입니다.

AI 시스템의 경우, 이를 위해서는 검색 기능을 갖춘 알고리즘, 즉 다양한 행동 방침을 개괄적으로 검토하고 검토한 후 최선의 방침을 선택하는 능력이 필요할 수 있습니다. 이는 게임 플레이 AI 모델이 여러 옵션을 탐색한 후 최선의 수를 선택하는 방식과 유사합니다.

6) JEPA 프레임 워크 제안

출처: JEPA

검색을 통한 개선 계획은 최근 일입니다. 예를 들어 메타의 르쿤 박사는 추론하고 예측하는 기능을 AI 시스템에 직접 프로그래밍하려고 시도하고 있습니다. 2022년에 그는 현재의 생성형 AI 모델보다 더 큰 텍스트나 이미지를 한 번에 예측하도록 훈련된 '공동 임베딩 예측 아키텍처(JEPA: Joint Embedding Predictive Architecture)'라는 프레임워크를 제안했습니다. 이를 통해 데이터 세트의 전반적 특징에 집중할 수 있습니다.

예를 들어, 동물 이미지를 분석할 때 JEPA 기반 모델은 개별 털 조각보다는 크기, 모양, 색상에 더 빠르게 초점을 맞출 수 있습니다. 관련 없는 세부 사항을 추상화함으로써 기존 생성 모델보다 더 효율적으로 학습할 수 있다는 것이 JEPA의 희망입니다.

Mamba나 JEPA와 같은 접근 방식을 사용한 실험은 여전히 일반적이지 않습니다. 데이터와 컴퓨팅 성능만으로 추가 개선이 어려워지기 전까지는 트랜스포머 기반 모델이 계속 선호될 것입니다. 그러나 엔지니어들이 AI를 더욱 복잡한 애플리케이션에 적용함에 따라 데이터 라벨링에는 여전히 사람의 전문성이 필수적입니다. 이는 이전보다 더 느린 개선을 의미할 수도 있습니다. 2022년에 챗GPT가 그랬던 것처럼 새로운 세대의 AI 모델이 세상을 놀라게 하려면 근본적인 혁신이 필요할 수 있습니다.

이 글은 The Economist의 Large language models are getting bigger and better를 번역하고 일부 편집했으며, 원문이 궁금하다면 여기를 클릭해 확인하세요.

(외신 번역 아이디어 및 합법성 여부는 뉴스페퍼민트를 참조했습니다.)

See more posts