HWP → HWPX 전환, 과연 인공지능 활용에 좋은가?
by 류창우
TL;DR: 전환은 찬성. 2026년 기준으로는 글쎄요? 진짜 문제는 페이지 렌더링 위주의 문서 작성 문화가 문제다.
최근 공문서 포맷을 HWP에서 HWPX로 전면 전환한다는 소식이 들려옵니다. AI 전략위원회는 그 이유로 “hwp 파일은 개방형 포맷인 hwpx와 달리 AI가 내부 정보를 분석하고 학습하기 어려운 폐쇄형 구조를 지니고 있어 여전히 AI 시대의 걸림돌이 되고 있다”라는 점을 들었는데요.
과연 실상은?
HWP v5: 폐쇄형이지만, 이미 많이 알려져 있는 포맷
우리가 흔히 말하는 HWP는 정확히 HWP 포맷 v5를 의미합니다. 마이크로소프트의 Compound Document Format을 기반으로 한 바이너리 포맷이죠. (v3 또는 그 전의 포맷도 있으나 수십년 전이라 사실상 찾아볼 수 없습니다.)
바이너리 데이터라 다루기 까다로운 건 사실입니다. 하지만 “읽을 수 없는 폐쇄형 포맷”은 아닙니다. 한컴이 포맷을 공개한 일이 이미 15년이 넘었고, hwp 포맷을 읽을 수 있는 수많은 오픈소스 구현이 있습니다. 저 역시 GNOME 데스크톱 환경에서 섬네일이나 문서 정보를 추출하는 기능을 직접 구현했습니다. 2026년 현재 수준에서 HWP 포맷 구현은 그렇게 대단한 일이 아닙니다. 어렵게 스펙 문서를 읽지 않고도 AI의 도움만 받아도 될 정도죠. 실제로 한국 시장을 공략하는 ChatGPT나 Gemini 같은 AI 서비스들도 이미 HWP를 무리 없이 읽어내고 있습니다.
다만, 바이너리 처리 과정에서 발생하는 보안 취약점은 여전히 만악의 근원입니다. 악성코드 실행의 단골 통로가 된다는 사실만으로도 보안 측면에서 교체하는 것이 마땅합니다.
HWPX: 더 낫긴 하지만, 결국 같은 내용인데?
HWPX 역시 표준화 시점인 2011년부터 공개된 이후 3차례 개정까지 거쳐서 꽤 오랜 시간이 지났습니다. 비교적 최근인 2021년부터 한컴오피스에서도 기본 포맷이 되었습니다. 한글과컴퓨터가 열심히 추진하지 않은 게 다행이랄까요. 구현이 더 쉬운만큼 오픈소스 구현도 HWP v5보다 HWPX 쪽 완성도가 높습니다. 하지만 HWPv5와 비교했을 때 ‘AI 학습’ 측면에서 달라지는 게 있냐고 묻는다면 부정적입니다.
이 문서의 스펙은 KS X 6101(OWPML) 표준에 잘 기술되어 있는데, HWPX는 본질적으로 HWPv5의 논리 구조를 XML 포맷으로 옮겨 담은 것에 불과합니다. 정확히 다음과 같이 대응됩니다.
- HWP v5의 compound document 스트림 → XML 파일
- 레코드 → XML 태그
- 레코드 내부 바이너리 데이터 → XML 속성
껍데기만 바이너리에서 XML로 바뀌었을 뿐, 그 내용은 완전히 동일합니다. 한컴오피스가 아니면 의미없는 구버전 호환성을 위한 정보도 들어있어서 표준으로 부적절할 정도로 내용이 똑같습니다. 구현이 조금 더 쉬워지고 보안성이 높아지는 효과는 분명하나, AI가 읽을 수 있는 문서의 표현력은 100% 동일합니다. 그러므로 포맷 전환이 AI 학습 효과를 높여줄거라고 보기는 어렵습니다.
문제는 ‘포맷’이 아니라 ‘문서 작성 방식’
AI가 한국 문서를 학습할 때 겪는 진짜 고충은 파일 포맷이 아니라, 문서 구조를 파괴하는 문서 양식에 있습니다.
워드 프로세서의 문서는 ‘문서 - 챕터 - 섹션 - 문단’으로 이어지는 계층적 구조를 가집니다. 하지만 많은 공문서가 이 구조를 무시한 채, 오직 ‘종이 위에서 어떻게 보이는가’, 즉 렌더링에만 집착합니다. 칸을 맞추기 위해 표 안에 글자의 크기를 미세하게 조정해서 구겨 넣거나, 문단 기능을 무시하고 스페이스바와 엔터로 여백을 조절하는 것과 같이 말입니다.
이런 식으로 작성된 문서는 포맷이 HWPX든, DOCX든, PDF든, 엑셀이든 상관없이 AI가 맥락을 파악하기 어렵습니다. AI가 이러한 문서를 읽으려면 페이지 렌더링 구조를 읽은 다음 문서 작성자의 의도를 역추적해 구조를 파악해야 하며, 이는 자원 낭비가 되겠죠. 지난 수십년간의 잘못으로 인한 대가를 치른다고 말할 수 있습니다.
포맷의 전환은 환영할 일이지만, AI가 잘 인식하는 문서 같은 얘기를 하려면 포맷보다도 ‘보기 좋은 문서’를 작성하던 문화의 변화를 얘기해야 하지 않을까요.
tags: hwp - hwpx - ai - government