본문 바로가기

SW 지식

Small LLM Research

 

최근 몇 년간 LLM(대용량 언어 모델) 생태계는 크게 확장되어, 일반 개발자들도 다양한 LLM에 쉽게 접근할 수 있게 되었습니다.

먼저, 아래는 주요 LLM  종류와 그 특징들을 정리한 내용입니다.


1. API 기반 상용 모델

1) OpenAI GPT 시리즈 (GPT-4, OpenAI o3 등)

OpenAI의 GPT 모델들은 텍스트 생성, 요약, 번역, 질의응답 등 다방면에서 강력한 성능을 자랑합니다.
API 형태로 제공되어 다양한 애플리케이션에 쉽게 통합할 수 있으며, 문서화 및 지원도 매우 체계적입니다.  

일반 사용자들이 주로 사용하는 chatGPT (챗봇) : https://chatgpt.com/
GPT4에 대한 페이지 : https://openai.com/index/gpt-4/
개발자들이 사용할 수 있는 API Platform : https://platform.openai.com/docs/quickstart#make-your-first-api-request

2) Anthropic Claude

Anthropic에서 제공하는 Claude 모델은 인간의 피드백을 반영한 안전성과 윤리적 사용에 특히 주안점을 둔 모델로 주목받고 있습니다. 사용 목적에 맞춰 최적화된 기능을 제공하며, API 접근 방식으로 개발자들에게도 인기 있습니다.

Claude 웹 프론트엔드 : https://claude.ai   
Claude에 대한 페이지 : https://www.anthropic.com/claude
개발자들이 사용할 수 있는 API access : https://docs.anthropic.com/en/home
 - Quick Start : https://github.com/anthropics/anthropic-quickstarts (sample apps)
 - Cookbooks : https://github.com/anthropics/anthropic-cookbook (best practices)

3) Google Cloud Generative AI (Gemini, Gemma, PaLM 시리즈 등)

Google은 차세대 언어 모델을 클라우드 서비스 형태로 제공하며, Google Cloud 플랫폼을 통해 접근할 수 있습니다. 대규모 데이터 처리와 안정적인 서비스가 강점입니다.

Gemini 챗봇 : https://gemini.google.com/
Generative AI (생성형 AI)에 대한 페이지 : https://cloud.google.com/ai/generative-ai  
개발자들을 위한 get started : https://ai.google/get-started/for-developers/
 - Getting Gemini API key : https://ai.google.dev/gemini-api/docs/api-key?hl=ko

4) Microsoft Azure OpenAI Service

Microsoft Azure를 통한 OpenAI 모델 접근은 기업 환경과 연계가 잘 되어 있으며, 클라우드 기반 통합 환경에서 더욱 안정적인 지원을 받을 수 있는 점이 장점입니다.

Copilot 챗봇 : https://copilot.microsoft.com/chats
Azure OpenAI Service에 대한 페이지 : https://azure.microsoft.com/en-us/products/ai-services
개발자들을 위한 Azure AI services : https://learn.microsoft.com/en-us/azure/ai-services/reference/rest-api-resources
 - Connect to Azure AI Search using keys : https://learn.microsoft.com/en-us/azure/search/search-security-api-keys?tabs=rest-use%2Cportal-find%2Cportal-query


2. 오픈 소스 LLM

1) Meta Llama 시리즈 (예: Llama 3)

Meta에서 공개한 Llama 모델은 오픈 소스 라이선스 하에 제공되므로, 커스터마이징이나 온-프레미스 배포가 가능합니다. 연구나 개발 용도로 매우 유용하며, 다양한 파인튜닝 사례가 이미 발표되었습니다.

Meta의 Llama 소개 사이트 : https://ai.meta.com/llama
Llama 공식 사이트 : https://www.llama-api.com/
 - Getting Llama API Token : https://docs.llama-api.com/api-token
Llama의 모델들 (hugging face) : https://huggingface.co/meta-llama

2) MosaicML 시리즈 (Databricks 사)

MosaicML의 DBRX와 MPT(Mosaic Pretrained Transformer) 시리즈 등은 모델의 효율성과 확장성을 중시한 설계 덕분에, 경량화와 빠른 인퍼런스를 원하는 개발자들에게 적합합니다.

Mosaic research 사이트 : https://www.databricks.com/research/mosaic
개발자들을 위한 가이드 : https://docs.databricks.com/aws/en/machine-learning/foundation-model-apis
- LLM Foundry github code : https://github.com/mosaicml/llm-foundry

3) Falcon 시리즈

TII(Technology Innovation Institute)에서 개발한 Falcon 모델은 성능과 효율성 두 마리 토끼를 잡으려는 개발자들을 위해 공개된 모델로, 최신 아키텍처와 학습 기법을 반영하고 있습니다.

Falcon LLM 공식 사이트 : https://falconllm.tii.ae/
TII의 모델들 (huggingface) : https://huggingface.co/tiiuae

4) Hugging Face 모델 허브

Hugging Face는 BLOOM, GPT-Neo, GPT-J, GPT-NeoX 등 다양한 오픈 소스 모델들을 제공하고 있어, 필요에 따라 직접 다운받아 로컬에서 실행하거나 클라우드 환경에서 활용할 수 있습니다. 커뮤니티가 활발하여 최신 업데이트와 사용자 지원도 풍부합니다.

쓰다보니 지쳐서 퉁쳐버린 것 아님... 😂


3. Small LLM

목표 : 1B 정도의 파라미터를 가진 LLM 모델

 

 

 

주요 후보 모델

1. GPT-Neo 1.3B

  • 특징: EleutherAI에서 공개한 GPT-Neo 시리즈는 125M, 1.3B, 2.7B 등 여러 버전이 있지만, 1.3B 모델은 소규모 연구나 실사용 애플리케이션에 적합한 크기입니다.
  • 장점:
    • 오픈 소스이므로 소스 코드와 사전학습 모델에 자유롭게 접근 가능
    • Hugging Face Model Hub 등에서 활발한 커뮤니티 지원
    • 단일 GPU나 제한된 리소스 환경에서도 비교적 효율적 학습/추론 가능
  • 연구 참고:
    • Fine-tuning, distillation, low-rank adaptation(LoRA) 등 소규모 모델에 특화된 기법 연구

2. OPT 1.3B

  • 특징: Meta에서 공개한 OPT 모델 시리즈 역시 350M부터 1.3B, 2.7B까지 다양한 파라미터 크기로 제공됩니다.
  • 장점:
    • 재현 가능하고 안정적인 훈련 프로세스
    • 학계 및 산업계에서 벤치마크로 자주 사용되며, 상세한 문서와 코드가 공개됨
  • 연구 참고:
    • 대형 모델과 소형 모델 사이의 성능 격차, 파인튜닝 전략 차이에 관한 연구

3. 나노GPT (NanoGPT)

  • 특징: Andrej Karpathy 등이 제안한 코드베이스로, 최소한의 코드로 작은 규모(수 백만에서 1B 정도)의 트랜스포머 모델을 직접 학습할 수 있도록 돕습니다.
  • 장점:
    • 학습 과정의 원리를 직접 이해하고 실험할 수 있는 좋은 기반 제공
    • 작은 데이터셋과 제한된 하드웨어에서도 실험 진행 가능
  • 연구 참고:
    • from-scratch training의 효율성, 간단한 모델 아키텍처가 특정 작업에서의 성능에 미치는 영향 분석

연구 주제 및 방향

  1. 효율적인 파인튜닝 및 전이학습 소규모 LLM은 전체 사전학습을 수행하기 어려운 환경에서 이미 학습된 모델을 특정 도메인에 맞춰 파인튜닝하는 경우가 많습니다.
    • 예시: LoRA, adapter 기반 기법 등을 적용해 파라미터 수는 유지하면서도 특화된 성능 향상을 달성하는 방법.
  2. 지식 증류 (Knowledge Distillation) 기법 더 큰 모델에서 작은 모델로 지식을 옮기는 연구는 1B 모델의 성능 극대화에 도움을 줄 수 있습니다.
    • 예시: DistilGPT-2와 같이, 큰 모델에서 추출한 "soft labels"를 사용하여 작은 모델을 학습시키는 접근법.
  3. 리소스 제한 환경에서의 성능 최적화 단일 GPU 또는 저사양 서버에서의 실시간 추론 속도와 메모리 사용 최적화를 목표로 합니다.
    • 예시: 모델 quantization, pruning 기법을 통한 경량화 연구.
  4. 성능 스케일링과 임계점 분석 모델 파라미터 수와 성능 사이의 trade-off를 체계적으로 분석하여, 1B 규모가 실제 애플리케이션에 적합한지 평가하는 연구.
    • 예시: "Scaling Laws for Neural Language Models"와 같은 논문을 참고하여, 학습 샘플 크기, 모델 크기, 데이터 범위 등이 성능에 미치는 영향 연구.

모델 비교 개요

아래 표는 간단한 비교 표입니다:

모델 이름파라미터 수장점단점
GPT-Neo 1.3B 약 1.3B 오픈 소스, Hugging Face 생태계 지원 대형 상용 모델 대비 성능 한계 있을 수 있음
OPT 1.3B 약 1.3B 재현 가능, 안정적 훈련 문서 및 커뮤니티는 GPT-Neo에 비해 덜 활성화
NanoGPT 수백만~1B 경량 코드 베이스, 실험 및 교육에 적합 최적화나 커스터마이징에 많은 추가 작업 필요
 

추가 자료 및 다음 단계

  • 논문 및 자료 참고:
    • Kaplan et al.의 "Scaling Laws for Neural Language Models"
    • Hugging Face 블로그 및 GitHub 레포지토리 (예: EleutherAI GPT-Neo, Meta OPT)
  • 실험 환경 구성:
    • GPU 한두 대로도 실험 가능한 NanoGPT 코드베이스를 사용하여 기초적인 실험을 진행해보고, 그 후 GPT-Neo나 OPT와 같은 모델로 확장해 보세요.
  • 분야별 응용 연구:
    • 특정 도메인(예: 의료, 금융 등)에서 1B 규모 모델의 활용 가능성을 확인하는 것도 유익합니다.

 

 

'SW 지식' 카테고리의 다른 글

통계학 개념 정리  (0) 2025.03.25
SW / IT 개발 쪽 약어 정리 페이지  (1) 2023.10.25
Diagram tool 을 알아보자  (0) 2022.12.12
md파일을 작성해보자!  (1) 2022.04.13
MVVM pattern을 공부하자!  (1) 2022.03.15