AI 학습 비용 절감하는 시스템 개발한 카이스트... 관련 연구 가속화 기대

'스텔라트레인' 통해 AI 학습에 필요하던 고가의 GPU 및 제반시설 의존도↓ CPU·GPU 연산 중첩... 기존 데이터 병렬 학습 대비 최대 104배 빠르다

2024-09-19 이지웅 기자

스텔라트레인

[녹색경제신문 = 이지웅 기자] 카이스트가 인공지능 기술 연구에 필요한 비용을 절감시킬 수 있는 기술을 개발했다. 이로 인해 관련 연구의 대중화 및 가속화가 기대되는 상황이다.

기존 AI 모델 학습에는 여러 대의 고성능 서버용 GPU와 함께 이들을 연결하기 위한 고가의 제반 시설이 필요했다. 저가의 GPU를 사용할 경우 기술적인 문제로 인해 대규모 AI 모델 학습 속도가 수백 배 느려지는 문제가 있었다.

한동수 교수 연구팀은 이를 해결하기 위해 분산 학습 프레임워크인 '스텔라트레인(StellaTrain)’을 개발했다. 이를 위해 기존의 그래디언트 압축 및 파이프라이닝 기법을 활용하는 동시에 학습 가속을 위한 새로운 전략들을 도입했다.

CPU에서 효율적으로 동작하는 희소 최적화 기술과 캐시 인식 기반의 그래디언트 압축 기술을 새롭게 개발해 CPU의 작업이 GPU의 연산과 중첩되는 학습 파이프라인을 구현했다.

네트워크 상황에 따라 배치 크기와 압축률을 실시간으로 조절하는 동적 최적화 기술을 적용해 제한된 네트워크 환경에서도 높은 GPU 활용률을 보였다. 연구 결과, 스텔라트레인 기술을 사용하면 기존의 데이터 병렬 학습에 비해 최대 104배 빠른 성능을 낼 수 있는 것으로 나타났다.

비용적인 측면에서도 이점이 있다. 해당 시스템은 저비용 GPU 클러스터 및 멀티 클라우드 환경 등 전용 네트워크가 없는 다양한 환경에 적용된다. 이를 통해 딥러닝 연구 및 개발에 필요한 비용이 절감될 것으로 보인다.

카이스트 측은 “이번 연구에서 제안된 시스템이 AI 연구의 접근성을 크게 높일 것으로 기대한다”며 “많은 연구자들이 거대 언어 모델을 학습시킬 보편적 기회를 얻게 돼 과학과 기술 혁신이 가속화될 것”이라 전했다.

한동수 교수는 "이번 연구가 대규모 AI 모델 학습을 누구나 쉽게 접근할 수 있게 하는 데 큰 기여를 할 것"이라며 “앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술 개발을 이어나갈 계획”이라 밝혔다.

한편 이번 연구는 임휘준 카이스트 박사, 예준철 박사과정 학생, 산기타 압두 조시(Sangeetha Abdu Jyothi) UC 어바인 교수와 공동으로 진행됐으며, 연구 성과는 지난 8월 호주 시드니에서 열린 ACM SIGCOMM 2024에서 발표됐다.