정책: 2차 세종계획 말뭉치 라이선스는
by 류창우
매일경제 - AI용 어휘 ‘말뭉치’ 태부족..영어 2000억개 vs 한국어 2억개
2007년에 마무리된 21세기 세종계획의 결과물은 오픈소스는 물론이고 어떤 용도로도 2차 저작물 제작이 금지되어 공정 사용 목적으로만 (연구, 교육 등) 쓸 수 있다. “말뭉치”라는 데이터의 역할이 2차 가공을 통해서 다른 용도로 이용하기 위한 목적인 것을 생각하면 넌센스가 아닐 수 없다. (물론 영리 기업에서도 다들 쉬쉬하면서 쓰고 있을 것이다. github을 뒤져봐도 세종 계획 결과물을 수정해서 쓰고 있는 경우를 많이 발견할 수 있다.)
세종 계획은 원본 문헌부터가 신문 기사나 출판물 등을 이용헀기 때문에 개별 저작권자의 동의를 받는 것도 사실상 불가능하다.
이 라이선스 문제는 여러가지로 문제를 일으킨다. 세종 계획 결과물에는 오류도 많아서 오류를 수정하는 논문이 몇몇 나오기도 했지만, 2차 저작물을 배포할 수 없으니 이런 수정 사항이 널리 공유되지 못하고 업체마다 오류를 수정한 버전이 돌아다닌다. 수정 사항을 오픈소스 방식으로 관리하자는 제안을 하는 카카오 엔지니어들의 논문이 나오기도 했는데[1](한경은, 백슬예, 임재수 “공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법”, 제29회 한글 및 한국어 정보처리 학술대회 (2017년)) 2차 저작물을 배포하지 못하는 이러한 한계 때문에 진행을 하지 못했다.
1998년부터 2007년까지 10년간 150억의 국가 예산을 들여서 나온 결과물이 결과적으로 이렇게 됐으니 안타까운 일이 아닐 수 없다. 최근 AI 열풍을 타고 2018년부터 5년간 157억의 예산을 투입하는 “2차 세종 계획”을 진행한다는 발표가 있는데 같은 실수를 반복하지 않으면 하는 바람이다.
제안:
-
오픈소스 사용 가능한 문헌을 위주로 사용한다. 위키백과 등 CCL 저작물, 법률이나 속기록과 같이 자유로운 활용이 가능한 국가 기록물, 정부 및 지자체 간행물, 그 외 저작권법 24조의2에 따라 국가나 지자체가 소유한 공공저작물 등 찾아보면 꽤 적지 않다.
-
만약 오픈소스 문헌이 부족해서 오픈소스 사용이 불가능한 문헌이 포함되더라도 출처와 라이선스를 정확히 남기고 구분해 용도에 따라 사용 여부를 결정할 수 있도록 한다.
-
데이터 생산에 참여하는 연구자들과의 계약에서 결과물의 저작권이 국가 소유가 되고 공공저작물이 됨을 명시한다.
-
오픈소스 방식으로 지속적인 유지 보수를 하도록 고려한다.