안녕하세요~! 오늘부터 블로그를 시작하게된 딥롱롱입니다.😁
저는 현재 업스테이지 AI LAB이라는 패스트 캠퍼스에서 운영하고 있는 부트캠프에서 공부 중입니다.
들어가기 전에 언어 모델을 배워야하는 이유
문서 작성 시 자동완성 기능이 있다는 걸 아시나요? 이러한 기능들의 핵심에는 바로 “언어 모델”이 있습니다. 오늘은 이 언어 모델이 무엇이고, 어떻게 발전해왔는지 함께 알아보는 글을 작성했습니다.
언어 모델이란?
언어 모델은 자연어를 이해하고 처리하기 위한 지식 표현 체계입니다. 자연어와 기계어(0과 1) 사이를 이어주는 중요한 다리 역할을 하며, 언어를 이루는 다양한 구성 요소(글자, 형태소, 단어, 문장, 문단 등)에 확률값을 부여하여 다음 요소를 예측하거나 생성하는 기능을 수행합니다.
조금 더 쉽게 글을 정리하자면, 언어 모델은 사람의 언어를 이해하고 사용할 수 있도록 만든 AI 시스템이라고 할 수 있습니다. 사람이 쓰는 일상적인 언어를 컴퓨터가 이해할 수 있는 형태로 바꾸고, 마치 사람처럼 글을 이해하고 쓸 수 있도록 해주는 통역사와 같은 역할을 하는 시스템이라고 생각하면 편할 것 같습니다.
자연어(Natural Language)의 정의
- 사람의 언어를 의미
- 정보 전달의 수단이자 사람만의 고유한 능력으로, 인공언어(Artificial Language)와 대비되는 개념
인공언어(Artificial Language)의 정의
- 특정한 목적을 위해 의도적으로 만들어진 언어를 의미합니다.
- 프로그래밍 언어가 제일 좋은 예시입니다. 이 외로는 수학적 표기 체계가 있는 것 같습니다.
- 자연어 역시 사람이 만든 것이라 인공적이지 않냐라는 의문이 들 수 있습니다. 하지만 다른 점은 자연어는 일상적인 의사소통, 감정표현 등 상호작용을 위함이라면 인공 언어는 특수한 목적을 위한 정확한 정보 전달을 위함입니다.
언어 모델의 발전 과정
1. 규칙 기반 모델 (Rule-based Language Model)
- 언어의 문법적 규칙(Grammatical Rules)을 미리 정의하고 이를 기반으로 자연어를 처리
- 초기 연구에서 주로 활용
- 한계점:
- 자유로운 어순(Word Order)에서 분석이 어려움
- 규칙의 사전 정의에 많은 노력 필요
- 작업의 정확도(Accuracy)가 낮음
2. 통계 기반 모델 (Statistical Language Model)
- 단어열의 확률 분포(Probability Distribution)를 기반으로 예측을 수행
- 실제 사용되는 문장의 분포를 정확하게 근사하는 것이 목표
- 주요 특징:
- 조건부 확률(Conditional Probability)을 언어 현상에 적용
- 실제 데이터(Real Data)를 기반으로 한 예측 가능
3. 딥러닝 기반 모델 (Deep Learning-based Language Model)
- 인공 신경망(Neural Network)을 통해 단어의 의미적 유사성을 학습
- 발전 과정:
- 피드 포워드 신경망(Feed-forward Neural Network) → 순환 신경망(RNN) → Transformer
- 장점:
- 문맥(Context)을 효과적으로 반영
- 기존의 희소성(Sparsity) 문제 완화
- 학습 데이터에 없는 경우에도 문맥을 통한 예측 가능
Transformer의 영향력
Transformer의 등장은 NLP(Natural Language Processing) 연구의 새로운 전환점이 되었으며, 다양한 모델 패밀리를 탄생시켰습니다:
- BERT family: Encoder만 사용
- GPT family: Decoder만 사용
- BART family, Transformer-XL Family: Encoder-Decoder(Sequence-to-Sequence) 구조 활용
Encoder와 Decoder의 특징 비교
Encoder
- 각 단계(Stage)에서 초기 문장의 모든 단어에 접근 가능
- 전체 문장의 이해가 필요한 작업에 적합
Decoder
- 각 단계에서 주어진 단어의 이전 부분만 접근 가능
- 텍스트 생성(Text Generation) 관련 작업에 최적화
이러한 발전을 통해 언어 모델은 더욱 정교해지고 있으며, 다양한 자연어 처리 작업에서 놀라운 성능을 보여주고 있습니다.
Reference
[1] https://medium.com/nlplanet/a-brief-timeline-of-nlp-bc45b640f07d
[2] https://www.hanbit.co.kr/media/channel/view.html?cms_code=CMS3077862128
[4] https://velog.io/@bluebarry3/언어-모델
[5] https://docs.sia.so/sia/llmops/why-the-rise-of-llmops
[6] https://wikidocs.net/162096
[7] UPSTAGE AI LAB_패스트캠퍼스
'Upstage_AILAB > LM to LLM (FastCampus정리)' 카테고리의 다른 글
자연어처리에서 언어 모델의 다양한 활용(Task와 응용 분야 둘러보기) (5) | 2024.12.05 |
---|