OpenELM Open Efficient Language Models | |
<colbgcolor=#333><colcolor=#fff> 개발 | Apple |
기능 | 언어 모델 |
공개 | 2024년 4월 |
라이선스 | 오픈 소스 소프트웨어[1] |
링크 |
[clearfix]
1. 개요
Apple에서 개발한 오픈 소스 소형 언어모델(sLM).2. 종류
OpenELM은 270M, 450M, 1.1B, 3B 4개 모델과 각각의 Instruct 모델로 구성된다. 여기서 모델명은 파라미터 수를 의미하며 가장 큰 모델인 3B 모델은 30억 파라미터를 가지고 있다.3. 특징
소형 언어모델인 sLM 중에서도 작은 편에 속한다. 그렇기 때문에 다른 모델에 비해 성능은 떨어지지만 운영에 필요한 비용이 저렴하고 휴대폰이나 PC 등에서도 온디바이스로 비교적 잘 작동한다.트랜스포머의 각 레이어에서의 파라미터 수를 변화시킴으로써 모델 전체의 파라미터를 효율적으로 배분하는 'layer-wise scaling'이라고 하는 기술을 채용했다.
구체적으로는, 입력에 가까운 레이어에서는 어텐션이나 피드 포워드를 위한 잠재 파라미터의 차원을 작게 하고, 출력에 가까워짐에 따라 서서히 레이어를 넓혀 간다. 이를 통해 제한된 파라미터 수에서 각 레이어에 적절한 수의 파라미터를 할당할 수 있다. 기존 언어 모델에서는 모든 레이어에서 같은 설정을 가지는 것이 일반적이었지만, 이 layer-wise scaling에 의해서 레이어 마다 다른 설정을 실시해, 파라미터를 보다 효과적으로 활용하는 것이 가능하게 된다. #
[1] 정확히는 Apple Sample Code License를 사용한다.