2018/07/13

정책: 2차 세종계획 말뭉치 라이선스는

by 류창우

매일경제 - AI용 어휘 ‘말뭉치’ 태부족..영어 2000억개 vs 한국어 2억개

2007년에 마무리된 21세기 세종계획의 결과물은 오픈소스는 물론이고 어떤 용도로도 2차 저작물 제작이 금지되어 공정 사용 목적으로만 (연구, 교육 등) 쓸 수 있다. “말뭉치”라는 데이터의 역할이 2차 가공을 통해서 다른 용도로 이용하기 위한 목적인 것을 생각하면 넌센스가 아닐 수 없다. (물론 영리 기업에서도 다들 쉬쉬하면서 쓰고 있을 것이다. github을 뒤져봐도 세종 계획 결과물을 수정해서 쓰고 있는 경우를 많이 발견할 수 있다.)

이 라이선스 문제는 여러가지로 문제를 일으킨다. 세종 계획 결과물에는 오류도 많아서 오류를 수정하는 논문이 몇몇 나오기도 했지만, 2차 저작물을 배포할 수 없으니 이런 수정 사항이 널리 공유되지 못하고 업체마다 오류를 수정한 버전이 돌아다닌다. 수정 사항을 오픈소스 방식으로 관리하자는 제안을 하는 카카오 엔지니어들의 논문이 나오기도 했는데[1](한경은, 백슬예, 임재수 “공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법”, 제29회 한글 및 한국어 정보처리 학술대회 (2017년)) 2차 저작물을 배포하지 못하는 이러한 한계 때문에 진행을 하지 못했다.

1998년부터 2007년까지 10년간 150억의 국가 예산을 들여서 나온 결과물이 결과적으로 이렇게 됐으니 안타까운 일이 아닐 수 없다. 최근 AI 열풍을 타고 2018년부터 5년간 157억의 예산을 투입하는 “2차 세종 계획”을 진행한다는 발표가 있는데 같은 실수를 반복하지 않으면 하는 바람이다.

제안:

만약 오픈소스 문헌이 부족해서 오픈소스 사용이 불가능한 문헌이 포함되더라도 출처와 라이선스를 정확히 남기고 구분해 용도에 따라 사용 여부를 결정할 수 있도록 한다.
오픈소스 방식으로 지속적인 유지 보수를 하도록 고려한다.

tags: license - korean - corpus

Changwoo Hacks

Hack n. : A non-obvious solution to an interesting problem

정책: 2차 세종계획 말뭉치 라이선스는