Data-centric AI
인공지능 세계적 석학 Andrew Ng의 말을 빌자면, 이제는 AI모델을 어떻게 만들까 고민하던 시대에서 데이터를 어떻게 만들까 고민하는 시대로 바뀌고 있다고 했습니다.
바야흐로 AI시대가 펼쳐지고 있는 세상, 그 중심에 있는 것이 바로 ‘인공지능 학습 데이터’입니다.
학습 데이터 없이는 인공지능을 개발할 수 없고, 양질의 데이터 없이는 더더욱 좋은 인공지능을 개발할 수 없습니다. 셀렉트스타는 Data-centric AI 시대 에 맞춰 인공지능을 위한 더욱 완벽한 데이터를 만드는 스타트업으로써 빠르게 성장하고 있습니다.
좋은 학습 데이터셋을 위해 셀렉트스타는 어떤 노력을 하고 있을까?
셀렉트스타는 더욱 뛰어난 AI를 위해 더욱 완벽한 AI 학습 데이터를 구축하려 노력합니다.
셀렉트스타의 데이터 구축 철학 ACCURACY / BALANCE / CONSISTENCY / COVERAGE에 입각하여 항상 더 뛰어난 학습 데이터를 구축하기 위해 힘쓰고 있습니다. 좋은 데이터를 위해 가이드팀을 구축하고, 우리만의 수학적 알고리즘, 반자동 레이블링 등 뛰어난 기술력을 통해 타의 추종을 불허케 하는 데이터를 만들어 내고 있습니다.
인공지능 데이터셋 지원사업이란?
‘인공지능 데이터셋 지원사업’은 정부지원 하에 진행되는 [데이터 바우처]를 벤치마크한, 대한민국 민간기업으로써 시도한 최초의 민간기업 지원사업입니다.
연구실이나 스타트업, 또는 대기업까지 다양한 곳의 지원을 받아 “각 팀 당 최대 1억원”을 지원하여 구축된 높은 퀄리티의 데이터셋을 ‘오픈데이터셋’ 홈페이지에 무료로 공개하는 사업으로, 21년도 최초 진행되었으며, 올해 2번째 지원사업이 진행되고 있습니다.
어떠한 상업적인 목적 없이 셀렉트스타가 대한민국 AI산업의 발전을 위해 진행하는 프로젝트입니다.
인공지능 데이터셋 지원사업은 AWS, 카카오벤처스, 한국인공지능협회, K Group Bay Area, AIFrenz, 구글이 파트너와 스폰서로 함께합니다.
오픈데이터셋에 대하여
셀렉트스타가 AI 기업들과 협업하여 구축한 데이터셋을 무료로 공개하는 웹사이트입니다. 높은 퀄리티의 데이터셋을 누구나, 언제든지 무료로 다운 받아 AI모델 개발에 사용할 수 있습니다!
2021년 처음 시작되어 총 9개의 데이터셋이 공개되었고, 2022년에는 8개의 데이터셋이 추가로 공개될 예정에 있습니다. 셀렉트스타는 매년 6~10팀 사이의 기업을 지원하여 양질의 데이터셋을 공개를 계획하고 있습니다.
실제로 ‘빵형의 개발도상국’이라는 AI 유튜버가 오픈데이터셋에 공개된 시각장애인을 위한 교차로 정보 데이터셋을 활용해 시각장애인을 위한 인공지능을 개발한 사례도 확인해 볼 수 있었습니다.
이렇듯 많은 개발자나 개발자 꿈나무들이 양질의 데이터셋을 무료로 제공 받아 더 뛰어난 AI를 만들어 주길 희망합니다.
셀렉트스타는 왜 이런 지원사업을 할까?
AI 산업 발전의 도모, 그리고 셀렉트스타의 역량을 높이는 동시에 네임벨류를 구축하기 위해 시작한 사업으로, 올해로 2번째 지원사업을 진행하고 있습니다. 최초의 도전이었던 만큼 안팎으로 우려의 목소리도 높았고, 내부적으로는 처음 경험하는 일들로 좌충우돌을 겪었고, 수많은 우여곡절 끝에 프로젝트들을 마무리할 수 있었습니다.
그렇게 2021년 9개의 팀이 참가하여 셀렉트스타와 함께 양질의 데이터셋을 구축했고, 오픈데이터셋 홈페이지에 오픈하는 동시에 ‘오픈데이터셋 컨퍼런스’를 라이브스트리밍으로 진행하였습니다. 많은 이들의 우려와는 달리 매우 긍정적인 결과가 셀렉트스타를 반겨주었습니다!
우리의 노고에 보답을 해주듯, 이 지원사업을 경험하고 직접 계약을 맺은 고객이 생기고, 또 지원사업을 보고 함께 하고자 먼저 연락을 준 많은 기업들이 생겨났습니다.
오픈데이터셋 컨퍼런스
크라우드 소싱 데이터 가공의 가장 큰 장점은 속도입니다. 작업이 캐시미션에 오픈된 뒤 약 3000명의 캐시미션 유저가 참여했고, ‘가림 정보’는 1주일 만에 약 300만 건, ‘앞뒤 정보’는 6주 만에 약 600만 건의 답변 데이터가 제출됐습니다.
성공적이었던 우리의 첫 시도를 알리기 위해, 2021년 12월 10일, 오픈데이터셋 홈페이지를 공개와 동시에 ZOOM 컨퍼런스와 유튜브 라이브 스트리밍을 통해 ‘오픈데이터셋 컨퍼런스’가 진행되었습니다. 아쉽게도 코로나로 인해 행사는 온라인으로 진행되었지만, 높은 퀄리티의 데이터셋을 무료 공개하고, 해당 기업들이 직접 진행해준 데이터셋 설명 그리고 김세엽 대표의 강의 등 다양한 컨텐츠로 구성된 행사로, 800명이 시청해주어 꽤나 성황리에 마무리될 수 있었습니다.
22년도에도 비슷한 행사를 준비하고 있으며, 더욱 알찬 행사가 될 수 있도록 초석을 다지고 있습니다. 더욱 많은 AI업계 종사자들과 AI업계에 발을 들이고 싶어하는 학생, 취준생분들께서도 많은 관심과 참여를 해주시기를 바라봅니다.