글쓴이 정인영 | | Sales, Marketing, 정현주 | Sales, Marketing BXD
🔑 10분 안에 이런 걸 얻을 수 있어요.
- 셀렉트스타만의 데이터셋 구축 솔루션
- 일관된 고품질의 데이터를 수집하고 가공하는 방식
- 오픈데이터셋 다운로드
** 오픈데이터셋은 AI 업계의 건강한 발전을 위해 셀렉트스타에서 자체 진행하는 무료 데이터셋 지원 사업입니다.
관계 추출
뉴스 헤드라인 분류
형태소 및 의존 구문 분석
기계 독해 이해
대화 상태 추적
문장 유사도 비교
개체명 인식
자연어 추론
8개 종류의 주요 한국어 NLP Task에 대해 국내 주요 연구기관들이 참여한 한국어 NLP 대표 벤치마크 데이터셋
셀렉트스타가 수집하고 가공한 데이터셋을 기반으로 한 KLUE 논문이 세계적인 AI 컨퍼런스 Neurlps(신경정보처리시스템학회/뉴립스) 2021에 채택되었습니다. KLUE는 Korean Language Understanding Evaluation Benchmark의 약자로, “한국어 자연어 이해 평가 데이터셋”으로 이해할 수 있습니다.
https://neurips.cc/Conferences/2021/ScheduleMultitrack?event=29902
한국어 고유의 특성을 고려한 연구
이에 스타트업 업스테이지가 셀렉트스타, KAIST, NYU, 네이버, 구글 등 10개 기관과 함께 한국어 기반 AI모델의 공정한 평가를 위한 ‘한국어 자연어 이해 평가 데이터셋(Korean Language Understanding Evaluation Benchmark, KLUE)’을 구축하였습니다.
일관된 고품질 데이터를 만들 수 있는 관리 능력
업스테이지 / KLUE 프로젝트 총괄 박성준 연구원
셀렉트스타와 KLUE 데이터셋을 구축하며 가장 인상적이었던 부분은 데이터 품질 관리였습니다.
셀렉트스타 담당자 분들의 역량과 열정덕분에 대표 한국어 NLP 벤치마크 데이터셋인 KLUE가 무사히 세상에 나올 수 있었다고 생각합니다. 상당히 어려운 난이도와 촉박한 일정이었음에도 불구하고 일관된 데이터 작업이 가능하도록 가이드라인이 수립되었고, 고품질 데이터를 만들 수 있는 작업자 선발과 교육, 전수 검사가 이뤄졌습니다.
KLUE 데이터셋
한국어 NLP 대표 벤치마크 데이터셋
가이드라인 수립
작업자 선발
전수검사
210,000 분류 태그 (70,000 개의 헤드라인 * 3 종의 분류)
105,000 유사도 점수 레이블 (15,000 쌍의 문장 * 7 개의 점수)
30,998 문장 세트
29,313 질문 문장 (Type1: 12,207/ Type2: 7,895/ Type3: 9,211)
KLUE 데이터셋에 해당하는 8개 종류의 한국어 자연어 이해 문제 중, 셀렉트스타가 구축한 4개의 문제는 다음과 같습니다.
- 뉴스 헤드라인 분류(Topic Classification, TC)
- 문장 유사도 비교(Semantic Textual Similarity, STS)
- 자연어 추론(Natural Language Inference, NLI)
- 기계 독해 이해(Machine Reading Comprehension, MRC)
셀렉트스타의 크라우드소싱 플랫폼 <캐시미션>을 통해 수많은 크라우드 워커들이 정확하고 신속하게 데이터를 수집하고 가공해 주었습니다. 이 4가지 항목이 정확히 어떤 것들인지, 그리고 셀렉트스타가 어떻게 수집하고 가공하였는지 알아보겠습니다.
아래 사진에서 확인할 수 있듯이, 뉴스의 헤드라인만 보고 정치, 경제, 사회, IT 등 카테고리에 맞게 분류를 하는 작업입니다. 단순히 주제 단어가 포함되었는지를 보는 것이 아니라, 헤드라인 자체가 어떤 주제에 해당하는지를 확인하는 작업입니다.
주어진 헤드라인에 대하여 세 명의 작업자가 관련성에 따라 최대 3개의 주제를 골라 제출하면, 작업자들의 결과물을 비교하여 분류를 나누었습니다. 개인 정보, 사회적 편견, 혐오 발언 등이 포함된 헤드라인은 작업자에게 신고를 요청하여 추후에 직접 확인 후 데이터셋에서 제거하여 보다 정확한 데이터를 구축할 수 있도록 하였습니다.
문장 유사도 비교는 번역, 요약, 그리고 질문 답변 등 다른 자연어처리 태스크에 있어 아주 중요한 역할을 합니다. 이번 작업은 말 그대로 문장의 언어적 유사도를 측정하는 작업이었습니다. 해당 작업의 가장 중요한 부분은 바로 두 문장에 공통적으로 사용된 단어의 유무를 찾는 것이 아닌, 문장의 의미가 유사한지를 비교하는 것이 관건이었습니다.
“더 잘 씻기는 거”와 “어떤게 세척력이 좋은지”에는 공통으로 들어간 단어가 없지만, 우리는 두 문장이 같은 의미인 것을 이해할 수 있습니다. 이와 같이 단순히 단어 사용의 유무를 떠나, 각 문장에서 화자가 말하려는 뜻, 문장의 의도, 표현이 담고 있는 의미를 비교하여 보다 똑똑하게 사용될 수 있는 데이터를 구축하였습니다.
자연어 추론의 목표는 인공지능이 가설 문장과 전제 문장 간의 관계를 추론할 수 있도록 훈련시키는 것입니다. 따라서 셀렉트스타의 크라우드 워커들은 먼저, 주어진 전제 문장에 대해 참/거짓/중립 문장을 무수히 만들었고 아래 가이드에 따라 다른 사람이 만든 문장에 대해 참/거짓/중립을 분류하였습니다.
그 후 최종 검수까지 거친 셀렉트스타의 자연어 추론 데이터로 구성된 KLUE-NLI는 기존의 SNLI(Stanford Natural Language Inference)와 MNLI(Multi-Genre Natural Language Inference)중에 가장 높은 정확도를 보였습니다.
Statistics | SNLI | MNLI | KLUE-NLI |
---|---|---|---|
Unanumious Gold Label | 58.30% | 58.20% | 76.29% |
Individual Label = Gold Label | 89.00% | 88.70% | 92.63% |
Individual Label = Author’s Label | 85.80% | 85.20% | 90.92% |
Gold Label = Author’s Label | 91.20% | 92.60% | 96.76% |
Gold Label ≠ Author’s Label | 6.80% | 5.60% | 2.71% |
No Gold Label (No 3 Labels Match) | 2.00% | 1.80% | 0.53% |
Author’s Label: 문장을 만든 작업자의 의도 / Gold Label: 작업자 5명 중 3명 이상이 같은 답_출처: KLUE 논문
KLUE의 기계 독해 이해는 주어진 텍스트 구절을 읽을 수 있는 인공지능의 능력을 평가하기 위해 고안된 작업으로, 수능 언어 영역 이상의 고난이도 작업으로 글귀에 대한 질문, 즉 글귀의 이해력에 대한 질문에 답하는 작업입니다. 인공지능이 문장을 “이해”할 수 있도록 많은 분들이 주어진 본문에 대한 질문-답변 세트를 만들어 제출하였고, 제출된 질문-답변 세트에 대한 최종 검수가 따로 이루어졌습니다.
위의 본문을 읽고, Question에 있는 질문에 답을 할 수 있는 인공지능을 위한 데이터라고 생각해주시면 됩니다. 즉, 정확한 단어나 구절이 포함된 문장에서 정보를 찾아내어 답을 하는 것이 아닌, 여러 개의 문장 속 정보를 “이해”하고 질문에 대한 정확한 답을 제시할 수 있는 것이죠.
인공지능이 점점 똑똑해지는 것은 이렇게 수많은 데이터가 인공지능을 “교육”시켜주고 있기 때문이랍니다. 그렇기 때문에 일관성 있고 정확한 교육자료, 즉, 양질의 데이터를 확보하는 것이 무엇보다 중요합니다. 인공지능 성능은 결국 데이터 경쟁이라고도 볼 수도 있습니다.
더 자세한 가이드가 궁금하다면?
김동연 | 데이터 사업팀, 프로젝트 매니저
KLUE 프로젝트에는 총 8개의 종류가 있었고 셀렉트스타는 4개의 종류(TC, STS, NLI, MRC)를 만들었습니다.
저는 MRC에 참여했었습니다. MRC에서는 3개의 타입이 있는데요,
1. Paraphrasing
2. Multi-sentence
3. Non-answerable
Paraphrasing에서는 허용 범위를 정량적으로 정하는 것이 어려웠고, Multi-sentence에서는 답변이 여러 개가 될 수 있는 사항을 피할 수 있게 문장을 조합하는 과정이 어려웠습니다. 대상 지문 또한 번역체, 또는 전문지식을 필요로한 글들이 있어 작업에 어려움이 있었지만 고객사와 지속적인 가이드 논의를 통해 작업의 일관성과 품질을 유지할 수 있는 방안을 마련할 수 있었습니다.
Open Datasets for Data-Centric AI
위 데이터셋은 셀렉트스타 ‘OPEN DATASETS’를 통해 무료로 다운받으실 수 있습니다.
CC BY-SA
복사, 배포 및 재가공 또는 2차 저작물을 만들 수 있으며, 반드시 저작자 및 출처를 표기하고 동일한 라이센스를 적용해야합니다.
https://creativecommons.org/licenses/by-sa/3.0/deed.en