*본 내용은 셀렉트스타의 '23/24 인공지능 인사이트' 매거진에서 발췌한 것입니다.
'AI’는 인공적으로 인간과 비슷한 지적 행위를 구현하는 컴퓨터 기술의 총칭이며, ‘AI 모델’은 특정 문제를 해결하기 위해 훈련된 컴퓨터 프로그램입니다. AI 모델은 특정 문제를 풀기 위해 훈련 데이터를 기반으로 학습하고, 이 학습을 기반으로 새로운 데이터를 처리할 수 있습니다
OPEN AI
훈련을 통해 문제를 해결하고 부가가치를 창출하는 컴퓨터 프로그램은 ‘AI 모델’입니다. 우리 일상에 큰 변화를 가져오고 있는 ‘ChatGPT’ ‘DALL-E 2’ ‘Bard’ 등은 정확히 말하면 AI라기보다는 AI 모델로 만들어진 서비스의 일종이라 할 수 있습니다.
AI 모델은 크게 알고리즘과 데이터로 구성됩니다. 사람에 빗대면 알고리즘은 ‘학습법’, 데이터는 ‘학습량’에 정도로 비유할 수 있습니다. 알고리즘은 ‘데이터를 해석하고 처리하는 체계’인데, 문제 해결 능력보다는 어떤 자질이나 적성에 가깝습니다. 아무리 똑똑한 사람이라도 생소한 분야의 처음 보는 문제는 풀 수 없듯, 최신 알고리즘을 적용한 AI 모델도 적절한 훈련 없이는 제 역할을 못 하게 됩니다.
AI 모델을 위한 훈련은 데이터의 역할입니다. 이를 학습 데이터 혹은 훈련 데이터라고 합니다. 근래 화제가 된 AI 발전은 어찌 보면 학습 데이터의 발전이기도 합니다. 예를 들어 ChatGPT의 기반이 되는 GPT-3 모델은 총 735GB 분량의 인터넷 채팅 및 블로그, 뉴스 기사, 도서, 위키피디아 데이터를 학습했습니다. 영상이나 사진이 아닌 텍스트 데이터 용량이 735GB이라는 점에서, ChatGPT가 학습한 정보량이 얼마나 많은지 짐작할 수 있습니다.
그렇다면 AI 성능 개선엔 알고리즘과 데이터, 학습법과 학습량 중 어떤 요소가 더 중요할까요? 생각보다 답은 명확합니다. 현시점에서는 알고리즘보다는 데이터가 중요하다는 게 정설처럼 받아들여지고 있습니다. 이러한 데이터 중심 인공지능 개발 방법론을 ‘Data-centric AI’라고 하는데요, AI 분야 세계적 석학 앤드류 응(Andrew ng) 교수가 앞서 주창한 패러다임입니다. 셀렉트스타가 발행하는 ‘23/24 AI 인사이트’는 바로 이 Data-Centric AI에 대한 이야기입니다.
권혁주 / 지은이, 편집
인공지능에 대한 사회적 관심이 큽니다. 하지만 인공지능을 이루는 ‘학습 데이터’에 대한 관심은 아직 그리 높지 않습니다. 통계상 AI 서비스 개발 시간의 약 80%를 학습 데이터 관련 작업이 차지한다고 합니다. 이번 AI 인사이트 발간으로, 인공지능의 본질인 데이터에 대한 이야기를 전합니다.
문정윤 / 기획, 디자인
저희는 작년, 2018년부터 2022년까지 구축한 AI 데이터가 무려 1억 5천만 건이라는 것을 확인하고. 저희가 가공한 AI 데이터 자료를 분석해서 흥미로운 인사이트를 얻을 수 있었습니다.
내부 자료로만 보는 것이 아까워서 저희가 알게 된 정보들을 공유하려고 한 일이 점점 커졌습니다. 다른 사람들도 보기 쉽도록 크게 프로젝트 금액 규모로 데이터를 분류했고, 이를 더 심화시켜 특정 데이터들이 주류가 된 이유를 밝히고 인공지능 트렌드를 읽을 수 있었습니다. 많은 분의 도움으로 구체적인 사례들과 함께 AI 트렌드를 담은 ‘셀렉트스타 인공지능 인사이트’를 제작해서 무료로 배포할 수 있었습니다.
저희는 매년 수많은 AI를 위한 데이터셋들을 구축하고 있습니다. 우리는 더 빠르게 변화하는 시대에 있습니다. AI가 만들어지기 전에 미리 데이터 구축 트렌드를 읽고 성장의 순간에 대비하고 있어야 합니다. 저희가 알고 있는 지식을 더 많은 분들에게 공개하는 것은 만만치 않은 작업이지만. 그 이상의 가치가 있습니다. 데이터로 세상을 더 편리하게 하는 일이 셀렉트스타의 미션이기 때문에 와디즈를 통해 가장 먼저 더 많은 분들께 전해드리고자 펀딩을 오픈했습니다.
Chapter 1: 인공 지능과 학습 데이터에서는 기초 신경망 구조와 함께 Data Centric AI 패러다임을 소개합니다. 인공 지능 ‘학습’이란 무엇이고 어떻게 진행되는지, 간단한 예제와 사례를 통해 설명합니다.
Chapter 2: ChatGPT와 GPT 완전 분석에서는 화제 모델 ChatGPT가 어떻게 데이터를 처리하고 학습하는지 분석합니다. ChatGPT의 기반이 되는 Transformer 아키텍처와 학습 데이터, 그리고 RLHF(Reinforcement Learning with Human Feedback)를 살펴봅니다.
Chapter 3: 사례와 통계로 보는 데이터셋 트렌드에서는 여러 가지 데이터 유형과 수집-가공 방법, 데이터셋 키워드와 트렌드를 짚어봅니다. 셀렉트스타 대표 데이터셋 구축 사례를 통해 학습 데이터 플랫폼의 역할과 전문성을 알 수 있습니다.
Chapter 4: MLops AI 평생 학습을 위해에서는 지속가능한 AI 개발 프로세스를 소개합니다. AI 생애 주기를 학습 데이터 관점에서 이해하고, 경쟁력 있는 AI 개발을 위한 과업들을 살펴봅니다.
셀렉트스타는 더욱 스마트한 인공지능을 위한 고품질 학습 데이터를 제공합니다.