안녕하세요.
자유/오픈 소스 소프트웨어를 번역할 때 참고할 만한 번역 용어집이 없어서 나름 고민하다가 거대 삽질을 시작했습니다. GNOME, KDE, OpenOffice.org, Firefox, GIMP 등 거대 프로젝트에서 L10n 파일을 받아오고, 우분투 배포판에 들어가는 패키지의 번역물을 관리하는 런치패드에서 L10n 파일을 전부 다운받아 "합체!". 총 257만 라인 정도가 되더군요.
현재 8만라인까지 정리가 되었습니다.
하지만 아직도 RAW DATA 라고 부를 정도의 수준밖에 되지 않습니다.
그래서 KLDP 와 우분투 커뮤니티에 자문을 구합니다.
[b:2w3d5h79]1. 데이터 정리[/b:2w3d5h79]
데이터 중 중복된 단어가 사용된 경우가 많습니다. 하지만 일괄적으로 제거할 수가 없는 것이 전치사라든가 동사의 경우에 문맥에 따라 의미가 많이 달라지기 때문입니다. 이게 한 두개가 아니라 많을 땐 단어당 백여개가 넘어가기 때문에 정리가 필요할 것 같은데, 수동 정리는 엄두가 안나고 대책이 필요한 것 같습니다. 예제 파일을 첨부합니다. 데이터 파일은 다음과 같은 구조로 되어 있습니다.(차후 gettext 형식으로 변환을 염두에 둠)
예제 파일 : [attachment=0:2w3d5h79]a.txt[/attachment:2w3d5h79]
[code:2w3d5h79]msgid by last visited msgstr 마지막 방문한 날짜 순서로[/code:2w3d5h79]
[b:2w3d5h79]2. 데이터 정리 - 번역어 정리[/b:2w3d5h79]
동일 단어에 여러가지 번역이 있는 경우가 많습니다. 번역자에 따라, 사용처에 따라, 문맥에 따라 번역이 달라지기 때문인데, 이를 하나의 단어로 모두 연결시켰습니다. 이걸 스크립트를 이용하다보니 중복된 번역어가 보입니다. 이를 없애고자 하는데, 제 실력으로는 무리네요.
[code:2w3d5h79]msgid add msgstr 더하기, 추가, 모두 추가, 추가하기, 추가됨, 추가, 더하기[/code:2w3d5h79]
[b:2w3d5h79]3. 게재 수단[/b:2w3d5h79]
현재로서는 제 서버에 설치된 미디어 위키를 사용하려고 생각중입니다. 롤모델로 잡은 것이 위키 낱말 사전이라서요. 제 서버는 (어디에 있는지 모르지만) 웹호스팅을 하시는 분께 VPS를 받아서 사용중이라 제가 돈을 지불하는한 ;;; 지속이 될 것 같습니다. 차후 용어집이 안정이 되면 좀더 안정적인 곳으로 이전을 할 계획입니다.
서버야 나중 문제고, 게재 수단은 한번 정하면 수정하기가 어렵기 때문에 조언이 필요합니다. 미디어 위키를 택한 것은 앞서 이야기한 이유 외에, 토론 기능이나 분류 기능이 있다는데 높은 점수를 주었습니다. 용어들이 안정되기까지 많은 토론이 필요할 것이며, 안정된 후에도 지속적으로 토론이 필요할테니까요. 그리고 분류 기능은 특정 카테고리(오피스, 그래픽, 멀티미디어 등)에서 사용되는 단어나 해석들을 확인하고자 할때 유용할 것 같습니다. 당분간은 구현되지 못할 기능이겠지만요. ;;;
예제 사이트 : http://web.mr-dust.pe.kr/wiki/
[b:2w3d5h79]4. 라이센스 문제[/b:2w3d5h79]
현재 번역물을 가져온 곳은 GNOME, KDE, OpenOffice.org, Firefox, GIMP, Launchpad 입니다.
GNOME과 GIMP는 GPL이고, KDE는 잘 모르겠습니다. OOo는 LGPL, Firefox는 MPL, 런치패드는 BSD입니다. 위 라이센스들을 모두 만족시키며 가장 상위(?)에 위치하는 라이센스는 아마도 BSD일 것 같은데, 맞는지 궁금합니다. 특히 KDE 쪽과 MPL 쪽에 대해 아는 바가 적어 많이 헷갈리네요. 조언 좀 부탁드립니다.
==========
마지막으로 이 용어집을 만들면서 세운 목표와 목적은 다음과 같습니다.
-
모든 사용자/번역자가 자유롭게 접근 가능하며, 토론 및 편집이 가능한 공개 번역 용어집 시스템을 구축한다.
-
번역시 가장 먼저 참조해야 할 용어집이 되도록 수준을 확보한다.
-
웹접근뿐만 아니라 다른 프로그램에서의 사용도 가능토록 한다. 예를 들어 데이터를 gettext 형식으로 내보내면, poedit나 pootle에서 TM의 데이터베이스로 활용이 가능하다. 또는 ko-po-check의 확장 기능으로 사용할 수도 있다.