메타의 AI 그룹에서 개발한 대규모 언어 모델인 '라마 2(Llama 2)'에 대해 자세히 알아보겠습니다. 라마 2는 페이스북 모회사인 메타가 개발한 언어 모델로, 다양한 규모의 매개변수를 가진 3가지 모델로 제공됩니다. 이 모델은 사전 학습과 미세 조정을 통해 구축되었으며, 메타는 라마 2 챗 LLM을 대화 사용 사례에 최적화했다고 주장합니다. 라마 2는 구글의 트랜스포머 아키텍처를 기반으로 하며, 여러 기술적 개선을 포함하고 있습니다.
라마 2의 기술적 특징
라마 2는 GPT-3와 비교하여 다음과 같은 기술적 개선을 포함하고 있습니다:
- RMSNorm 사전 정규화: GPT-3를 본뜬 정규화 기술로서, 모델의 성능을 향상시키는 데 사용됩니다.
- SwiGLU 활성화 함수: 구글의 PaLM에서 영감을 얻은 활성화 함수로, 모델의 학습 및 예측 능력을 향상시킵니다.
- 멀티쿼리 어텐션 대신 멀티쿼리 어텐션: 이 어텐션 기술은 GPT-3를 대체하고 더 효율적인 학습을 지원합니다.
- 회전 위치 임베딩(RoPE): GPT 네오(Neo)에서 영감을 받은 기술로, 모델의 성능을 향상시킵니다.
- AdamW 옵티마이저 사용: 학습에 AdamW 옵티마이저를 활용하여 모델을 효율적으로 훈련시킵니다.
데이터와 학습
라마 2는 공개적으로 사용 가능한 데이터와 함께 메타의 제품 및 서비스 데이터를 혼합하여 학습되었습니다. 그러나 학습 데이터의 토큰 수는 총 2조 개에 달하며, 학습에는 리서치 수퍼 클러스터와 내부 프로덕션 클러스터, 엔비디아 A100 GPU가 사용되었습니다.
안전성
라마 2의 안전성에 대한 관심이 있습니다. 생성형 AI의 안전성 문제는 중요한 주제 중 하나입니다. 메타는 라마 2의 안전성을 위해 고스트 어텐션(Ghost Attention; GAtt)을 활용하여 대화 턴이 넘어갈 때 시스템 메시지를 잊지 않도록 했다고 밝혔습니다. 또한 메타는 적대적 프롬프트를 사용한 인간 평가를 통해 라마 2 챗의 안전성을 확인했다고 주장하지만, 이러한 안전성 평가는 주관성과 편향성의 가능성을 내포하고 있습니다.
윤리적 고려 사항
라마 2의 사용 정책에는 윤리적 및 안전한 사용을 강조하는 규정이 포함되어 있습니다. 이 규정에 따르면 라마 2를 사용하여 법률 또는 타인의 권리를 위반하거나 침해하는 행위, 사망이나 신체적 상해 위험을 초래하는 활동, 기만, 오도, AI 시스템의 알려진 위험을 공개하지 않는 행위 등을 금지합니다.
오픈소스 여부
라마 2에 대한 오픈소스 여부는 특별한 라이선스 제약 사항으로 인해 복잡합니다. 메타는 라마 2를 "거의 오픈소스에 가깝다"고 설명하며, 일부 사용자의 상업적 사용을 제한하는 조건과 특정 목적을 위한 모델 및 소프트웨어 사용을 제한하는 조건이 있기 때문입니다. 이러한 제약 사항으로 인해 라마 2는 엄격한 오픈소스 정의(OSD)를 충족하지 않을 수 있습니다.
코드 라마(Code Llama)
메타는 라마 2와 함께 '코드 라마(Code Llama)'라고 하는 프로그래밍 코드 생성 모델을 소개했습니다. 코드 라마는 코드와 자연어 프롬프트에서 코드 및 코드에 대한 자연어를 생성할 수 있는 모델로, 다양한 프로그래밍 언어를 지원합니다. 이 모델은 연구 및 상업적 용도로 무료로 사용할 수 있으며, 다양한 규모의 모델로 제공됩니다.
코드 라마의 크기와 사용
코드 라마 모델은 70억, 130억, 340억 매개변수로 제공되며, 다양한 언어 및 환경에서 프로그래밍 코드를 생성하는 데 사용할 수 있습니다. 코드 라마는 코드 작성, 코드 완성, 디버깅 등 다양한 용도로 활용될 수 있습니다.
이러한 모델은 개선된 입력 토큰 수와 중간 채우기 학습을 통해 최적화되었으며, 작은 모델은 편집기 내에서 사용하기 용이하도록 설계되었습니다.
맺음말
메타의 라마 2와 코드 라마는 혁신적인 AI 모델로, 다양한 자연어 처리 및 프로그래밍 작업에 활용될 수 있습니다. 그러나 오픈소스 여부와 안전성, 윤리적 고려 사항에 대한 주의가 필요하며, 이러한 모델을 적절하게 활용하기 위해서는 신중한 접근이 필요합니다.
'최신 세상 이야기' 카테고리의 다른 글
별의 죽음을 관측하는 BTS봇 (72) | 2023.10.18 |
---|---|
메타버스 디지털 현실의 새로운 지평 (5) | 2023.10.13 |
AI for Oceans 바다와 인공지능의 만남 (66) | 2023.10.06 |
반도체 분야에 취업하기 위한 알면 좋은 지식 베스트7 (63) | 2023.10.03 |
엘론 머스크의 뉴럴링크: 뇌와 기술의 만남 (87) | 2023.09.24 |
V2L (Vehicle-to-Load): 자동차에서 전기를 공급하는 혁신적인 기술 (39) | 2023.09.16 |
한국의 중이온 가속기 '라온(RAON)': 과학의 미래를 밝히는 열쇠 (41) | 2023.09.15 |
디젤자동차 핵심적인 부품 요소수: 차량의 성능, 연비, 배출가스 제어 그리고 내구성 (39) | 2023.09.10 |