AI NODAJI는
AI에 대한 자유로운 의견과 질문, 그리고 깊은 인사이트까지 교류하실 수 있는 AI 사업개발 커뮤니티입니다. AI NODAJI 토크쇼는 매 달 마지막 주 목요일에 열리는 온오프라인 행사입니다. 토크쇼에서는 AI와 관련한 자유로운 토론, 관련 업계 분들을 모시고 함께 이야기를 나누고, 창업 과정, 궁금했던 이야기 등을 나누고자 합니다.
AI 커뮤니티 분들은 모두 노다지를 찾는 ‘광부’로 불립니다. 7월의 광부님은 셀렉트스타의 김세엽 대표님, 신호욱 대표님입니다.
AI 도입이 막막하고 인공지능을 어디에 어떻게 도입시킬지, 또 어느 정도까지 활용할 수 있을지 확신이 서지 않으시다면. AI에 대한 전문성이나 전략이 부족해 실행하지 못하고 검토만 진행 중이시라면 AI 노다지에서 실마리를 찾아보세요.
같은 고민을 하고 있는 사람들을 만나고 싶다면?
제 4차 산업혁명 시대가 도래하며 높아지는 인공지능의 중요성
많은 곳에서 비용 절감, 업무의 자동화 등을 위해 인공지능을 적극적으로 도입하고 있습니다. 하지만 중요성을 알면서도 도입을 하지 못하는 데는 다양한 이유가 있습니다.
2018년부터 312개의 데이터 프로젝트를 진행하면서 약 1억 3천만 건의 데이터를 쌓아온 셀렉트스타의 두 대표님을 모시고 인공지능이 다양한 산업 군에서 어떻게 사용되고 있는지 인사이트를 나누고 네트워킹하는 시간이었습니다.
*이 글은 AI NODAJI 토크쇼 7월 방송을 요약한 내용입니다. 더 많은 이야기를 듣고 싶으시다면 유튜브 라이브 녹화본에서 확인해주세요.
“이런 곳에서도 AI를 쓴다”, 특이한 사례들
세엽: 저희 클라이언트분들이 워낙 다양한 AI를 하시다 보니까 특이한 사례들이 있는데요. 그중 특이한 사례를 소개해 드릴게요. 일반적으로 전봇대를 보면 여러 가지 부품들이 있습니다. 그 부품들을 유지 보수하기 위해서는 사람이 올라가서 실제 부품이 지금 녹슬었는지, 문제가 있는지 확인을 하고 고치는 방식으로 합니다. 그것들을 자동화하기 위해서 전봇대 부품을 인지하는 인공지능을 만드는 회사가 있었습니다.
전봇대 부품 Bounding Box & Line Segmentation
구분하기 어려운 전봇대 부품 이미지, 셀렉트스타 전문 가이드라인 팀의 크라우드 교육을 통해 전량 크라우드 소싱(캐시미션 앱)을 통해 구축 성공
축산의 경우, 돼지나 소가 아픈지, 건강한지 상태를 눈으로 또는 CCTV로 보고 관리합니다. 그것을 인공지능을 통해서 관리하는 회사도 있었습니다.
구분하기 어려운 전봇대 부품 이미지, 셀렉트스타 전문 가이드라인 팀의 크라우드 교육을 통해 전량 크라우드 소싱(캐시미션 앱)을 통해 구축 성공
국방 쪽에는 위성 영상에 있는 여러 가지 정보들을 인공지능을 통해 빠르게 포착하여 활용한 케이스도 있었습니다. 최근 가슴 아픈 일이었던 우크라이나 전쟁 때에도 그 기술이 활용이 되어서 도움을 준 것으로 알고 있습니다.
AI에 대해서 쉽게 생각하셨으면 좋겠습니다. AI는 도구일 뿐이거든요. “내가 자동화하고 싶은 부분이 있다.”라고 하면 AI를 적용할 수 있다고 생각해 주시면 좋을 것 같습니다.
AI 선녀 보살 : 질문이 있습니다. 전봇대 부품 파악하는 것도 전문가의 노하우 그런 것인데, AI가 파악할 수 있는 기술로서 바꿀 수 있다는 것으로도 알면 될까요?
세엽: 네 맞습니다. 결국 사람이 어떤 인지를 해서 판단을 한다는 것이 특정 패턴을 인지했기 때문입니다. 인공지능이 잘하는 것이 여러 데이터들을 보고 패턴을 끄집어내서 학습하는 것입니다. 그렇기 때문에 사람이 어떤 근거, 어떤 패턴을 가지고 판단하는 일이 있다면 그걸 인공지능이 대신할 수 있다고 생각해 주시면 됩니다.
AI 선녀 보살 : 어 그럼 주식도 패턴인데 AI가 학습할 수 있다는 건가요?
세엽: 주식에 패턴이 있었으면 … 제가 지금 눈물을 흘리고 있지 않겠죠 …
AI 산업의 미래
호욱: 셀렉트스타에서 2018년 창업한 이후로 약 200개 회사의 고객들과 320개 정도의 프로젝트를 진행했습니다. 그 프로젝트에서 작업했던 데이터들은 1억 3천만 건 정도 되었습니다. 최근에 시간을 들여서 해당 데이터들을 기반으로 인사이트를 분석해서 여러 가지 결과들을 도출해낼 수 있었습니다. 그중에서 특히 트렌드라고 할만한 것이라면, 저희가 작업했었던 데이터에서 가장 많은 도메인을 차지했었던 것이 바로 ‘언어’데이터입니다. 전체 40% 정도의 규모의 프로젝트가 언어 데이터 쪽에서 구축을 많이 했습니다.
저희 언어 데이터 구축 사례 중 대표적인 것을 말씀드려보면. 2020년에는 LG CNS와 함께 KorQuAD 2.0 데이터 셋을 전량 구축한 바 있습니다. 2021년에는 KLUE 데이터 셋을 저희가 함께 구축했습니다. 또 그 밖에도 자체적인 한국어 벤치마크 데이터 셋을 만든 사례들이 굉장히 많았습니다.
한국어 기계독해의 범위를 넓히다: LG CNS ‘KorQuAD2.0’
왜 이렇게 언어 데이터 셋이 많아졌을까라고 생각해 보면 *BERT, GPT 같은 대량언어 임베딩 모델들이 좋은 성능을 보여주면서 전 세계적으로 인기를 끌게 된 것이 가장 큰 이유라고 생각합니다. 국내에서도 한국어 기반 대량 데이터 셋을 마련하고자 하는 움직임이 크게 일어나고 있다는 점을 말씀드리고 싶습니다.
*Bidirectional Encoder Representations from Transformers는 Google에서 개발한 자연어 처리 사전 교육을 위한 변압기 기반 기계 학습 기술. 위키피디아
*Generative Pre-trained Transformer 3는 딥 러닝을 사용하여 인간과 유사한 텍스트를 생성하는 자동 회귀 언어 모델. 위키피디아
AI 선녀 보살 : 한국어 데이터가 많아지고 좋아지면 사람들은 한국어 공부 안 해도 되나?라는 생각을 하게 되는데요. 대표님이 보기엔 이제 사람이 하는 번역, 실시간 통역사 사라지는지. 영어 공부를 안 해도 될까요?
호욱: 개인적으로는 5년 안에 사라질 수 있지 않을까? 예측하고 있습니다.
AI 선녀 보살 : 그렇다면 산업계에 적용했을 때, 예를 들면 제조업과 언어 쪽에선 어떻게 될까요?
호욱: 산업계 도입을 하게 된다면 번역기와 같은 형태도 있을 거고요. AI 스피커도 동시에 음성을 텍스트로 변환한 다음에 어떻게 해석하느냐에 달려있는 기술입니다. … 저희가 이번에 발간한 인공지능 인사이트를 언어 데이터 이외에도, 뷰티, 예술, 사람, 건강, 동물, 자동차, 식품 순으로 도메인들이 이어져 왔었습니다. 다양한 분야에서 초개인화된 AI들이 개발되고 있습니다.
요즘 MZ 세대들이 사용하는 AI는?
호욱: 제가 사용하는 AI 말씀이시죠? AI는 생각보다 사람들의 삶 속에 깊숙이 침투해 있습니다. 당장 생각나는 것들은 페이스북에서 광고 추천 알고리즘, 유튜브에서 추천 알고리즘들이 AI 활용되는 것입니다.
세엽: 저 같은 경우에는 댄스 동아리를 했었어서 음악을 좋아하는데요. 개인에 맞게 추천 음악이 뜨는 것이 좋습니다. 멜론 같은 경우 제가 들었던 플레이리스트를 보고 유사한 곡들을 유사한 곡들을 추천해 주는데 제 취향과 굉장히 잘 맞더라고요. 그런 것들이 실생활에서 쓰는 부분인 것 같습니다. 그리고 유튜브나 인터넷 방송을 보면 *TTS라고 해서 텍스트를 넣으면 어떤 특정 목소리로 자연스럽게 바꿔주는 것을 많이 사용하더라고요. 그래서 실제 성우를 대신해서 사용하는 경우도 있고, 인터넷 방송에서 특정 금액을 도네이션 하는 경우 텍스트를 재미있는 목소리로 대신 이야기해 주는 것을 저희 또래들이 많이 활용하는 것 같습니다. 최근에 MZ가 흥미를 끌만한 것이 있다면, 손흥민이 직접 방한해서 목소리를 이용해 AI 손흥민을 만들었습니다. 그 프로젝트에 저희 회사 데이터도 들어갔었습니다.
*TTS(text-to-speech) 음성합성. 위키피디아
AI 산업과 데이터
AI 선녀 보살 : 그럼 현업에서 뛰는 광부님들께선 미래의 AI 산업에 대해 좀 점지해주실 수 있을지.
세엽: 요즘에는 AI 기술들이 너무 많이 발전해서 연주자나 기술자가 내부에 없더라도 AI 도입을 할 수 있는 때가 많이 가까워진 것 같습니다. 물론 그 AI를 제공하기 위한 솔루션 업체나 구글이나 아마존 같은 곳에서 API형태로 제공하는 것들을 활용하면 되는데요. 결국에는 우리 회사에서 AI를 도입하기 위해서 필요한 것이 뭐냐? 그럼 데이터라고 이해해주시면 됩니다. 최근에는 AI를 도입하기 위한 주요 구성원중에 AI 기술자보다 데이터를 기획하는 사람들이 들어갈 정도로 결국에는 내가 자동화하고 싶은 문제가 무엇인지 그것을 명확히 이해하는 것이 중요다고 AI 리더분들이 항상 말씀하십니다. 내가 자동화하고 싶은 문제가 있으면 그것에 관해서 데이터화하면 됩니다. AI를 좀 더 쉽게 생각하시면 블랙박스라고 생각하시면 되거든요. 내가 의도한 인풋을 넣었을 때, 원하는 아웃풋이 나오게하는 어떤 장치일 뿐입니다.
예를 들어, 내가 어떤 것을 분류하는 작업을 자동화한다고 하면 분류하기 위한 이미지(인풋)이 있을 거고, 분류한 결과(아웃풋)이 있을텐데. 그것을 위한 데이터만 준비해주시면 사실 그 데이터를 AI에 학습해서 제공해줄 수 있는 업체는 굉장히 많기 때문에 데이터를 내부적으로 잘 쌓으시는게 중요하다고 말씀을 드리면 될 것 같습니다.
AI 선녀 보살 : 데이터라는 것이 명칭이 중의적인 것 같습니다. 정확하게 데이터가 무엇인지 인지하기가 힘듭니다.
세엽: 제가 반복적으로 강조를 드리고 싶은 부분은 내가 어떤 것을 자동화하고 싶냐?라는 겁니다. 핸드폰에 있는 음성인식 기능은 음성(데이터)을 넣어주고(인풋), 아웃풋이 텍스트(데이터)로 바꿔주는 것입니다. 데이터는 그런 것들을 부르는 호칭일 뿐인 것이고, 내가 넣어주는 게 무엇이고, 튀어나오는 게 무엇이냐. … 내가 AI에게 가르치고 싶은 행동 혹은 기능이 무엇인가?를 생각해 주시면 됩니다.
Q&A
Q. 커피와 같은 비정형 데이터에 AI를 적용한 사례가 있나요?
저희는 커피를 제공하는 비즈니스를 하고 있습니다. 기존 업계에선 이 커피와 고객 데이터에 측정하기도 어렵고, 있는 데이터를 통해서도 인사이트를 얻거나 의미 있는 상관관계를 얻기 힘들다고 느끼고 있습니다.
특히 커피처럼 단순하지만 정확한 데이터를 쌓기 힘든 맛의 영역이 가장 큰 어려움이라고 생각하는데요. 이런 비정형화된 데이터들이 AI 산업에서 의미 있는 데이터를 쌓고 디지털화된 사례가 있을까요? 혹은 커피처럼 맛의 영역에 있는 데이터를 인공지능을 통해 디지털화할 수 있을까요?
세엽: 저희 클라이언트 중 한 곳은 와인, 전통주를 비슷하게 개인들의 취향 설문을 받아서 추천해 주는 프로젝트를 진행했습니다. 결국에 AI는 패턴을 찾으면 알려줄 수 있는 거잖아요. 우리가 해야 할 일은 이 사례의 경우, 개인의 커피 취향과 연관되어 있는 패턴을 어떻게 찾을 수 있을까? 그 사람들의 취향에 대한 설문을 할 수 있겠죠. 그중에서 커피 취향과 상관관계가 있는 설문을 추리고, 이런 작업을 반복하다 보면 우리가 유의미한 데이터를 얻을 수 있을 것 같고요. 이 경우는 어려운 사례는 맞는 것 같습니다. 커피라는 취향을 파악할 수 있는 인풋 데이터가 무엇일까? 우리가 찾아야 하는 것이기 때문에 패턴을 찾는다면 가능하다고 설명드릴 수 있을 것 같습니다.
AI 선녀 보살 : 만화 ‘신의 물방울’이 떠오릅니다. 그렇다면 비정형 데이터라는 것이 정확하게 어떤 뜻인지 여쭤봐도 될까요?
세엽: 여기서 비정형 데이터는 깔끔하게 떨어지지 않는, 정돈되지 않는 데이터라고 표현을 해주신 것 같고요. 공학적인 용어로 비정형 데이터는 이미지나 텍스트, 음성, 영상같이 엑셀, 표로 보이지 않는 데이터라고 부르고 있긴 합니다.
Q. AI 서비스 기획에 관한 소통을 하기 위해서는 어느 수준의 이해도가 필요한가요?
기술 전문가가 없어도 서비스 기획을 하려면 어느 정도 수준의 이해도가 있어야 외부 전문기관과 소통이 가능할까요? 소통 자체가 안돼서 서비스 기획을 할 수가 없습니다.
세엽: 소통이 안된다는 단어에서 고충이 느껴집니다. 일단은 AI를 위에서 말했던 블랙박스로 바라보는 관점이 필요합니다. 우리가 조직을 꾸리고 일을 할 때, 우리가 어떤 기능을 하는 조직인지 윗단에서 바라보고 조직에 필요한 것을 지원해 주고, 넣어주면. 어떤 산출물을 낼 수 있는지 바라보듯. AI도 그렇습니다. 실질적으로 서비스 기획을 하시기 위해서는 AI가 어떻게 학습을 하는지, 그것에 대해 아시면 좋을 것 같습니다. 결국에는 어떤 인풋이 있고 AI가 아웃풋을 내는데. 아웃풋의 품질을 어떻게 하면 더 향상시키는지입니다. 저희는 학습 데이터라는 정답지를 만들어서 AI에게 주면 AI는 정답지를 보고 다시 문제를 풉니다. 그것을 반복하면서 AI가 성능을 올리는 것입니다. 그리고 서비스는 한 번 기획하고 끝날 것이 아니므로, 서비스를 발전시켜야 하는데 그렇기 위해서는 ‘이 AI를 작동시키기 위해서는 어떤 데이터가 필요하구나.’는 것들을 고려해서 서비스 기획을 하는 것이 중요할 것 같습니다.
Q. 온라인 매체를 통한 고객 데이터를 수집하는 과정에서 적용할 수 있는 AI 기술은 무엇인가요?
호욱: 추천 알고리즘과 비슷한 AI를 도입할 수 있을 거라고 생각해요. 20대 여성을 타깃으로 물건을 판매한다고 했을 때. 모든 20대 여성들의 판매 데이터를 다 보는 것이 아니라. 특정 몇몇의 데이터를 본 뒤에 ‘아, 이 사람들은 이런 패턴을 가지고 있구나’ 하면 ‘이 상품들을 더 많이 보여주면 되겠다.’는 결정을 하게 됩니다. 결국에는 빅데이터를 기반으로 한 추천 기술도 동일합니다. 경험해 보지 못한 사람의 데이터가 들어왔을 때. 우리에게는 데이터가 없지만, 이미 경험한 데이터를 자동으로 추천해서 넣어주는 것이거든요. 그것이 사실 데이터의 힘입니다. 온라인 매체 속의 고객 빅데이터라면 그건 더 방대할 것이고, 이것을 추천 알고리즘으로 만들었을 때, 그 효과는 더 클 것으로 생각합니다.
Q.AI 도입과 레거시 시스템의 충돌에 관하여
AI를 산업별로 적용할 때, 레거시 시스템과의 연결, 레거시 시스템이 갖는 기능적 한계로 기대하는 퍼포먼스를 만족시키지 못하는 상태가 많이 있습니다. 많은 비용과 시간 투자 없이 적용 가능한 기술 개발에 대한 관심이 궁금하네요.
세엽: AI 자체가 도구라고 생각합니다. AI 조차 도입했을 때, 경제적으로 우리 회사에 이득이 될 것인지를 증명하는 것은 변치 않을 것 같습니다. 지금 들어가는 비용이 있는데 그것을 AI로 대체했을 때 절약할 수 있는 비용. 레거시 시스템이 연결될수록 교체 비용이 큰 것인데, 교체 비용 대비 더 이득이라는 것을 사업개발하는 입장에서 의사 결정권자를 설득하는 것이 가장 중요한 요소인 것 같습니다. 그러면 우리가 얼마나 빠르고 적은 비용으로 설득할 수 있느냐가 중요합니다.
먼저 AI가 적용되려는 영역을 세분화시키는 것이 좋을 것 같습니다. 폭넓게 보시는 것보다 좁게 보시고 하나의 영역에서 인풋, 아웃풋을 보신 뒤에 실제 그 데이터들을 현장에 수집하기 위해 깔아두시는 것이 좋겠습니다. 제조업에서 공정 같은 경우, 정상인지 불량인지 자동화한다면 카메라를 설치해서 이미지를 수집할 수 있도록 하고. 분류하시는 분들이 결과들을 데이터로 로깅해서 저장해두면 그 데이터를 가지고 바로 AI 학습을 시켜볼 수 있습니다. 이런 테스트로 비용과 시간 투자 없이 빠르게 그 AI의 효용성을 증명하는 것이 중요하지 않을까 싶습니다.
*이 글은 AI NODAJI 토크쇼 7월 방송을 요약한 내용입니다. 생생한 현장 질문과 더 많은 이야기를 듣고 싶으시다면 유튜브 라이브 녹화본에서 확인해주세요. 👇🏻