보도자료 상세
무서운 속도로 진화하고 있는 ‘생성형 AI 기술’ 트렌드 전망 2024. 02. 23.

770668074469796c56b5d5353eb26b43_1746263427_2908.png
 

2023년 가장 뜨거웠던 기술 트렌드를 하나 꼽으라면 누구나 주저 없이 챗GPT가 촉발한 생성형 AI를 언급할 것입니다. 그만큼 생성형 AI는 대중과 언론의 큰 관심을 받으며 기술업계와 시장에서 급성장했고, 일상으로 넘어와 업무, 검색, 창작 방식 등 전반적으로 영향을 미치고 있는데요. 의심할 여지없이 가장 영향력 있고 잠재력 있는 기술 중 하나가 된 생성형 AI는 챗GPT, 다양한 코파일럿(Copilot), 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney) 등을 통해 이미 우리의 일상적인 작업 환경에서 활발하게 활용되고 있습니다. 오늘 모비와이드에서는 더욱 넓어진 범위의 생성형 AI 기술 트렌드가 무엇인지, 주요 기술과 솔루션 등을 종합해 5가지로 전망해 봅니다. 무서운 속도로 진화하고 있는 분야 가운데 하나인 생성형 AI에 대해 지금 바로 확인해 보세요. 1. 생성형 AI 1위 서비스를 향한 치열한 경쟁 지난 11월, 오픈AI가 텍스트와 이미지를 함께 이해하고 처리하는 *멀티모달 모델 ‘GPT-4 Turbo with Vision’을 공개했습니다. 이번 모델은 128k 토큰으로 늘어난 컨텍스트 윈도우(Context Window, 문맥 창으로 기계 학습에서 특정 정보를 파악하는 데 필요한 범위) 성능과 개선된 응답 속도 등이 특징인데요. 이를 통해 오픈 AI는 생성형 AI 시장 1위 서비스 제공자로서 명성과 위치를 굳혔습니다. *멀티모달 AI: 멀티모달(Multi Modal)은 시각, 청각을 비롯한 여러 인터페이스를 통해서 정보를 주고받는 것을 말하는 개념으로, 다양한 채널의 모달리티를 동시에 받아들여서 학습하고 사고하는 AI를 멀티모달 AI라고 한다. IT 서비스 분야에서는 1위가 시장을 독식하는 경우가 많습니다. 그렇다 보니 기업들 사이에서는 자신만이 가진 강점을 어필하는 것이 중요해졌는데요. 특히, 1위를 차지하고 있는 오픈AI와의 경쟁에서 시장 인지도와 점유율을 높이려는 처절한 노력이 이어지고 있습니다. 생성형 AI 구글은 12월에 텍스트, 이미지, 오디오 등을 동시에 인식하는 멀티모달 모델 제미나이 울트라(Gemini Ultra) 데모 시연 영상을 공개했습니다. AI 모델의 지식과 문제 해결 능력을 테스트하는 데 널리 활용하는 대규모 다중작업 언어이해(Massive Multitask Language Understanding, 이하 MMLU) 벤치마크에서 90.0%의 정답률을 기록했는데요. 이는 기존 GPT-4의 86.4%, 인간 전문가의 89.8%를 뛰어넘는 수준입니다. 그러나 데모 영상에서 보여준 실시간 응답이 실제로는 스틸 샷을 편집하고 빨리 감기해서 만든 것이라는 사실이 밝혀졌는데요. 그러자 제미나이 울트라의 실제보다 성능이 과장되었음은 물론이고, 구글이 서둘러 오픈AI의 대항마를 출시하려고 무리수를 두었다는 평가가 잇따르게 되었습니다. 또 해외 여러 IT 전문 매체와 기관들은 제미나이 울트라 대신 제미나이 프로(Gemini Pro) 모델 기반으로, 변경된 구글 바드(Bard) 서비스를 테스트했습니다. 그 결과 제미나이 프로는 구글의 발표와 달리 아직 챗GPT보다 부족하다는 것이 밝혀졌죠. 하지만 2024년에는 제미나이 울트라가 실제 서비스를 시작하고 오픈AI가 한 단계 업그레이드한 GPT 모델을 선보일 예정이어서, 시장의 경쟁 구도에 어떤 변화가 생길지 예측하기 어려운 상황입니다. 2. 소형언어모델(Small Language Model, SLM)의 영향력 확대 지난해 대형언어모델(LLM) 시장은 마이크로소프트와 구글 등 거대 IT 기업의 영향력과 장악력 아래 있었습니다. 이는 방대한 학습 데이터와 빠른 트레이닝이 가능한 GPU 환경이 구비되었기에 가능한 일이었는데요. 이런 방대한 GPU 환경 덕분에 시장 점유율이 유지될 수 있었으며, 당분간은 이런 기조가 유지될 것으로 보입니다. 반면 오픈소스 LLM 분야로 시각을 돌리면 소형언어모델(SLM) 시장이 눈에 들어옵니다. 2023년 한해를 달군 LLM은 보다 나은 품질과 성능에 집중하며, 더 정제되고 많은 학습 데이터, 큰 파라미터를 가진 모델의 출현을 부추겼습니다. 그러나 큰 파라미터 수가 반드시 높은 품질을 보장하는 것은 아님에도 불구하고 기업들은 새로운 모델을 발표할 때 파라미터 수의 크기를 성능과 연결해 홍보하고 있죠. 생성형 AI 이러한 방향성에 제동을 건 SLM은 LLM에 비해 성능이나 작업에 대한 이해도는 상대적으로 낮지만, 비용이나 속도와 일반인의 접근성 측면에서는 확실한 이점을 보이며, 이를 활용한 특정 언어 및 도메인에 맞춘 전문화된 서비스를 구축해 나름의 경쟁력을 확보해 가는 중입니다. 생성형 AI 분야에서는 잠잠했던 애플도 2023년 12월 관련 논문을 발표하며, 제한된 디램(DRAM) 용량을 가진 장치에서 LLM을 실행하는 신기술을 발표했습니다. 애플은 아이폰에 LLM을 탑재하는 방법도 함께 제시했는데요. 앞으로 AI를 활용한 스마트폰 개발에도 역량을 기울일 것으로 보입니다. 생성형 AI 이처럼 작은 프로세서에 최적화된 SML이 이런 기술과 융합되면 스마트폰뿐만 아니라 자동차 등 다양한 스마트 장치에서 애플리케이션과 다방면으로 결합될 수 있습니다. 즉, 새로운 응용 시나리오에 따라 혁신적인 응용 서비스 시장이 열릴 가능성이 높아진 것이죠. 3. LLM 기반, 맞춤형 서비스 개발 방법 진화 원래 검색 증강 생성 기법은 임베딩, 벡터 데이터베이스, 랭체인(LangChain) 프레임워크 등을 이해하고 프로그램으로 구현하여야 하므로 소프트웨어 엔지니어가 아닌 사람이 자신만의 AI 서비스를 구축하기는 힘들 수밖에 없었습니다. 생성형 AI 그런데 지난 2023년 11월 이러한 장벽을 허물기 시작한 중대 발표가 있었는데요. 바로, 오픈AI가 자신만의 지식정보 파일을 단 한 줄의 코딩도 없이 규칙과 액션을 프롬프트 형식으로 입력해 특정 목적에 특화된 챗GPT를 생성할 수 있는 GPTs를 선보인 것입니다. 또, 비슷한 시기에 공개된 마이크로소프트의 코파일럿 스튜디오도 로코드(Low Code) 툴과 연계해 개발 과정을 단순화시켰어요. 물론, LLM 애플리케이션 개발에서 전문 개발자가 여전히 필요하지만, 개발 과정의 난이도가 크게 낮아졌습니다. 올해는 LLM 기반 서비스 개발 환경이 더 쉬워져 비개발자 도구 영역과 전문 개발자 도구 영역이 공존할 것으로 비춰지는데요. 비개발자와 파워 유저, 전문 개발자 등 사용자 유형에 따라 세분화되고, 애플리케이션의 유형에 따라 맞춤형 도구가 개발될 수 있는 한해가 될 것으로 보입니다. 4. 한 발짝 더 다가올 자율 AI 에이전트의 시대 현재는 LLM은 텍스트 외에 이미지, 사운드, 동영상 등을 충분히 소화할 수 있는 멀티모달 모델로 발전해 가는 과정에 있습니다. 텍스트와 이미지를 다루는 데는 괜찮은 수준에 다다랐지만, 이것이 인간처럼 복합적인 작업을 수행하고 해결할 수 있다는 의미는 아닌데요. 인간의 두뇌와 거의 비슷한 범용 인공지능(Artificial General Intelligence, AGI)이라는 궁극적 목표에 도달하기 위해서는 여전히 많은 진화 과정이 필요합니다. 이에 AI 에이전트를 이용해 복합적인 문제를 (보다 작은 단위의) 단순한 문제로 나누고 개별 문제를 단계별로 풀어 최종 목표 문제를 대형 언어모델 ‘스스로’ 해결하도록 하는 시도가 지난 한 해 계속되었습니다. 2023년 3월 오픈소스 솔루션 깃허브(GitHub)에 공개되고 생성형 AI 관계자들에게 회자된 ‘AutoGPT’를 예로 들 수 있어요. 사람의 개입 없이 설정된 목표 달성 프롬프트를 생성하고 수행하는 과정을 반복하는 AI 에이전트인데요. 마이크로소프트 자비스(JARVIS)도 또 다른 형태의 AI 에이전트로, 주어진 문제를 작은 단위로 나눈 후 글로벌 AI 플랫폼 허깅 페이스(Hugging Face)와 연계해 복잡한 작업을 해결할 수 있도록 하는 컨트롤러 역할을 합니다. 챗데브 ChatDev 소프트웨어 개발을 위한 커뮤니케이션 에이전트 ‘챗데브(ChatDev)’ 이 밖에도 많은 관심을 받은 ‘챗데브(ChatDev)’ 프로젝트가 있습니다. 최고 경영자, 최고 기술 책임자, 프로그래머, 테스터 등 다양한 역할을 수행하는 지능형 에이전트들을 통해 가상 소프트웨어 회사를 구현하고 디자인, 코딩, 테스트, 문서화를 진행하는 에이전트들의 협업으로, 소프트웨어 개발을 위한 AI 에이전트의 또 다른 예라고 할 수 있습니다. 가령, 우리가 현실 세계에서 행사 전문 에이전시를 만나 어떤 이벤트에 대해 구체적으로 협의하고 그 수행을 요청한다고 했을 때, 에이전시 소속 전문 상담사는 고객의 요청을 구체적으로 분석해 최적의 장소를 예약하고 잠재 고객 리스트를 작성해 초대장을 발송할 것입니다. 그리고 각종 케이터링 준비 등 행사에 필요한 전 과정을 순차적 혹은 병렬적으로 조직하고 수행하는데요. 이때 AI 에이전트가 우리 옆에서 이처럼 복잡한 작업을 일련의 작은 작업으로 세분화해 계획하고, 최고의 도구와 전략으로 각 작업을 체계적으로 처리해 우리 작업을 도와준다면 어떨까요? 이런 기술이 구현되는 세상은 어떻게 변할지 궁금해집니다. 5. AI 생성 콘텐츠에 대한 우려 증폭 AI 발전은 언제나 동전의 양면처럼 다른 시각으로 해석되곤 합니다. AI의 긍정적 효과를 기대하며 인간과 사회에 이롭게 적용해 보려는 부류와 오용에 따른 문제점을 부각하며 인류를 위해 잠시 개발을 멈춰야 한다는 부류는 끊임없는 논쟁을 이어가고 있죠. 특히, 생성형 AI 분야가 다양한 산업과 일상생활에 광범위하게 영향을 미치기 시작하면서, 일자리 변화와 경제적 격차 심화, 오용에 따른 사회적·윤리적 통제와 책임의 문제와 같은 우려의 시각이 공존하고 있는 추세인데요. 그중 이미지 생성 AI는 급속도로 발전해 실제 사진 여부를 식별하기 어려울 만큼 뛰어난 품질의 이미지를 생성하고 있습니다. 미드저니 Midjourney 급속도로 진화하는 ‘미드저니(Midjourney)’ 버전별 이미지 품질(출처: 트위터 @burny_tech ) 달리 3(DALL·E 3), 스테이블 디퓨전, 미드저니의 경우, 초기 다소 엉성하고 기괴했던 이미지 생성 수준에서 최근 발표된 V6의 극도로 섬세해진 디테일과 사실적인 이미지 생성으로 발전했습니다. 손가락 6개 이미지나 그림 내 문자가 이상한 형태로 표현되던 오류들도 모두 옛이야기가 되었습니다. AI로 생성되었지만, 인간의 시각으로 구분할 수 없는 이미지들이 쏟아지는 세상입니다. 그만큼 가짜 뉴스를 유포하고 사회적 혼란을 야기하며 실제 사건이나 역사적 인물의 이미지를 조작해 잘못된 역사 왜곡이나 문화적 인식을 조장할 가능성도 높아졌죠. 세계 각국의 해석이 조금씩 다르기는 하지만, AI 창작물 저작권 인정에 대한 의견도 분분한데요. 가짜 신분증과 프로필로 손쉽게 다른 사람의 신원을 도용해 불법적인 활동을 펼칠 수도 있고 개인의 권리를 심각하게 훼손할 가능성도 있는 만큼, 2024년에는 이에 대한 대응책 마련에 보다 적극적인 준비가 필요할 것으로 보입니다. 오늘 모비와이드에서 생성형 AI에 대해 알아보았는데요. 앞으로 한 가지 확실한 것은 기술 진화를 거듭하는 기업 간의 건강한 경쟁 속에서 관련 서비스들이 빠르게 성장하고, 생성형 AI의 상용화를 위해 기술과 서비스가 시장에 더욱 공고히 자리 잡게 될 거라는 점입니다.