한국어 기계독해의 범위를 넓히다: LG CNS ‘KorQuAD2.0’

🔑 10분 안에 이런 걸 얻을 수 있어요.

셀렉트스타만의 데이터셋 구축 솔루션
다양하고 편향성 없는 고품질 데이터 구축을 위한 섬세한 작업 가이드 제작 노하우

korQuAD 2.0

딥러닝

MRC

질의응답

기계독해

한국어 질문-답변 KorQuad Dataset 2.0 전량 크라우드 소싱 구축. 카카오, 네이버 등 주요 기업들의 기계독해 AI 모델 성능의 척도가 되는 데이터셋

기계독해(MRC;Machine Reading Comprehension)는 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 찾아야 하는 자연어처리 과제로 자동 질의응답 기술의 핵심 토대가 되는 기술입니다. 기계독해를 위한 한국어 표준 데이터셋으로는 KorQuAD 1.0이 있으며 모델 학습에 이용할 수 있을 뿐만 아니라 여러 모델 간 의 성능 평가를 위한 객관적 기준이 됩니다.

기존에 공개된 한국어 데이터셋은 위키백과나 한 문단의 짧은 뉴스 기사와 같은 평문으로 구성된 지문에서 질의응답을 수행했습니다. 하지만 실무에서 만나게 되는 문서(웹 문서, 상품 매뉴얼, 이용 약관 문서, 표, 리스트의 형태 등)는 다양한 구조와 길이, 형태가 존재하며 문단이 아닌 문서 안에서 기계독해를 수행해야 하는 경우가 대부분입니다. 이처럼 실제로 필요한 질의응답 태스크와 학계의 연구 사이에는 괴리가 있어 데이터셋에 대해 제대로 질의응답할 수 있는 알고리즘 일지라도 현실의 문제에서는 적용이 되지 않는 경우가 많습니다.

이러한 문제를 해결하기 위해 LG CNS AI빅데이터연구소에서는 다양한 구조와 길이를 가진 문서에서 기계독해를 위한 데이터셋 korQuAD 2.0을 구축했습니다. 셀렉트스타는 약 5만여 개 위키피디아 글을 바탕으로 약 8만여 개 질의응답 쌍으로 이뤄진 학습 데이터를 수집했으며 LG CNS와 함께 기존의 KorQuad 1.0 데이터 2만 건과 합쳐 총 10만 건의 데이터셋을 구축했습니다.

출처: https://korquad.github.io/dataset/KorQuAD_2.0/KorQuAD_2.0_paper.pdf

프로젝트 요약

데이터 구축 내용

LG CNS와 함께 국문 위키피디아 문서에 대한 질문-답변 쌍 8만 건을 구축한 ‘웹문서 기계 독해를 위한 한국어 질의응답 데이터셋’ 으로 기존 KorQuad 1.0 데이터 2만 건과 합쳐 총 10만 건의 데이터셋 구축

데이터 구성

문서 및 질문 개수

	학습	검증	평가	합계
문서	38,496	4,736	4,725	47,957
질문	83,486	10,165	9,309	102,960

답변 유형 비율

답변 길이에 따라 Short와 Long으로 구분했으며 각각 유형마다 Text, Table, List로 구분

	Short	Long
Text	문단 내에서 답변을 선택	문단 전체를 답변으로 선택
Table	표 내에서 답변을 선택	표 전체를 답변으로 선택
List	리스트 내에서 답변을 선택	리스트 전체를 답변으로 선택

Long 답변 예시

Long 답변
소제목 중복 (38%)	Q. 피터슨과 노먼 그란츠의 관계는 어떤 과정을 통해 형성되었는가?
소제목 중복 (38%)	Title. 오스카 피터슨 – #생애 – #노먼 그란츠
소제목 변형 (47%)	Q. 이경직의 가족 관계는 어떻게 이루어져 있는가?
소제목 변형 (47%)	Title. 이경직 – #가계
자체 제작 (15%)	Q. 문화재를 보존하기 위해 시행하는 법은 무엇일까?
자체 제작 (15%)	Title. 거문오름 용암동굴계 상류동굴군 – #공개제한

*Long 답변은 해당 Title 섹션 내 문단 전체를 의미

Short 답변 예시

Short 답변
구문 변형 (48.0%)	Q. 외국인들을 위해 먹는 샘물이 일시 판매되었던 년도는 언제일까?
구문 변형 (48.0%)	‧‧‧1988년 서울 올림픽 무렵 외국인들을 위하여 일시 판매를 허용했던 적이 있으나, 다시 판매를 제한하였다.‧‧‧
어휘 변형 (15.4%)	Q. 2009년 시즌 도중 경질된 지바 롯데의 감독은?
어휘 변형 (15.4%)	‧‧‧시즌 도중에 바비 밸러나인 감독의 해임이 발표되자 일부 팬들은‧‧‧
여러 문장 종합적 활용 (8.0%)	Q. ‘Don’t Cha’는 한국 휴대전화 기기 제조사의 휴대전화 CM송으로도 사용되었는데 그 제조사는 어디인가?
여러 문장 종합적 활용 (8.0%)	‧‧‧첫 싱글 ‘Don’t Cha’는 영국, 오스트레일리아, 캐나다 등의 나라에서 1위에‧‧‧ 또한 이 노래는 한국의 휴대전화 기기 제조사 SKY의 휴대전화 CM송으로 쓰여‧‧‧
표/리스트 (27.7%)	Q. 득표율 2위를 한 사람은 어느 정당 소속인가?
표/리스트 (27.7%)
기타 출제 오류 (0.9%)	Q. 꽃가루가 식물에 전이되어 수정을 거쳐 유성 생식에 이를 수 있게 하는 과정을 일으키는 말은? (지문에서 관련 설명을 찾을 수 없음)
기타 출제 오류 (0.9%)	‧‧‧이것으로 파리를 불러들여 수분(꽃가루받이)을 한다고 한다. 꽃덮이조각은‧‧‧

수량

총 10만 건

참여 인원

1,372 명

프로젝트 기간

2019년 7월 ~ 8월

다양하고 편향성 없는 고품질 데이터

다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다.

AI 빅데이터 연구소

셀렉트스타 플랫폼 덕분에 빠른 시간 내에 한국어 질문-답변 데이터셋인 KorQuad 2.0을 구축할 수 있었습니다. 다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다. 특히, 당사의 데이터 요건과 작업자의 이해를 모두 잡은 작업자 교육자료가 인상깊었습니다.

LG CNS AI빅데이터연구소

한국어 질문-답변 데이터셋

문서 수집

위키백과 문서들 활용

질문-답변 생성

자사의 크라우드 소싱 플랫폼을 통해 다양한 작업자 참여

검수

전량 교차 검수

프로젝트 진행 과정

KorQuAD 2.0은 셀렉트스타의 크라우드 소싱 플랫폼 ‘캐시미션’을 통해 수집된 데이터를 기반으로 제작되었습니다. 이 과정에서 사전 테스트를 거쳐 정상적으로 기계 독해 질문을 생성하는지 확인된 작업자들만이 제공된 문단 안에서 답을 정하고 그에 맞는 질문을 생성했습니다. 크라우드 소싱 플랫폼을 통해 다양한 작업자를 모을 수 있었고 탄탄한 사전 테스트와 가이드라인을 통해 수집하는 데이터의 퀄리티를 일정하게 유지할 수 있었습니다.

문서 수집

– 다양한 주제에 대해 구조화된 문서를 모으기 위해 위키백과 문서들을 활용

– 위키의 문서 중 사람들이 관심 있어 하는 문단을 선정하기 위해 3년 (2016/06/01 ~ 2019/05/31)의 Page view 상위 15만 개의 문서를 선별

– 더 다양한 문서 도메인을 다루기 위해 임의로 5만 개의 문서를 추가

질문-답변 생성

– 자사의 크라우드 소싱 플랫폼 ‘캐시미션’을 활용하여 작업 실시

– 문서 앞쪽 혹은 내용이 쉬운 부분에서만 질문을 만드는 것(작업 편향성)을 방지하기 위해 문서 전체가 아닌 일부 문단만 제공

– 답변 길이에 따라 Long 타입 / Short 타입으로 구분하여 질문-답변 데이터 셋 생성

검수

– 각 데이터별로 전량 교차 검수(2~3명) 실시하여 데이터 품질 관리

– 검수를 위해 과제 성공률 85% 이상의 작업자 들 중 검수자 선별

데이터의 품질을 높이는 상세한 가이드라인

작업자는 위와 같은 사전 테스트를 통과 해야만 정식작업에 참여할 수 있습니다. 사전 테스트는 다양한 질문의 예시를 보여주고 질문이 올바르게 만들어졌는지, 아니라면 어떤 이유에서인지까지 판단하는 과정을 통해 해당 태스크의 목적과 방향성에 대해 확실하게 인지하여 보다 정확한 데이터를 수집할 수 있도록 하였습니다.

NLP 분야의 현실적 문제를 해결할 수 있는 데이터

KorQuAD 2.0은 현재 누구나 사용 가능하도록 공개되어 있으며 카카오, SDS, 네이버 등 주요 기업들의 기계독해 AI 모델 성능의 척도가 되고 있습니다. 평문에 한정되어 있던 기계 독해의 범위를 길고 복잡한 문서의 양식으로 확장하며 NLP 분야에서 현실적으로 맞닥뜨리던 문제에 대해 해결할 수 있는 데이터를 확보했습니다. 더 나아가 성능에 대한 공정한 평가까지 이루어지고 있으며 이를 바탕으로 실효성을 갖춘 자연어처리 모델을 개발하는데 단단한 발판을 다지고 있습니다.

참고자료

https://korquad.github.io/dataset/KorQuAD_2.0/KorQuAD_2.0_paper.pdf

https://korquad.github.io/

CC BY-SA

복사, 배포 및 재가공 또는 2차 저작물을 만들 수 있으며, 반드시 저작자 및 출처를 표기하고 동일한 라이센스를 적용해야합니다.

https://creativecommons.org/licenses/by-sa/3.0/deed.en

한국어 기계독해의 범위를 넓히다: LG CNS ‘KorQuAD2.0’

korQuAD 2.0

딥러닝

MRC

질의응답

기계독해

프로젝트 요약

데이터 구축 내용

데이터 구성

수량

참여 인원

프로젝트 기간

다양하고 편향성 없는 고품질 데이터

LG CNS AI빅데이터연구소

문서 수집

질문-답변 생성

검수

프로젝트 진행 과정

문서 수집

질문-답변 생성

검수

데이터의 품질을 높이는 상세한 가이드라인

NLP 분야의 현실적 문제를 해결할 수 있는 데이터

참고자료

Related Posts

위조상품 잡는 AI: 마크비전

눈으로 볼 수 없는 승리의 요소를 찾다: 핏투게더