4-5만 단어 수준의 번역 용어집을 준비중입니다.

안녕하세요.
자유/오픈 소스 소프트웨어를 번역할 때 참고할 만한 번역 용어집이 없어서 나름 고민하다가 거대 삽질을 시작했습니다. GNOME, KDE, OpenOffice.org, Firefox, GIMP 등 거대 프로젝트에서 L10n 파일을 받아오고, 우분투 배포판에 들어가는 패키지의 번역물을 관리하는 런치패드에서 L10n 파일을 전부 다운받아 "합체!". 총 257만 라인 정도가 되더군요.

현재 8만라인까지 정리가 되었습니다.
하지만 아직도 RAW DATA 라고 부를 정도의 수준밖에 되지 않습니다.
그래서 KLDP 와 우분투 커뮤니티에 자문을 구합니다.

[b:2w3d5h79]1. 데이터 정리[/b:2w3d5h79]
데이터 중 중복된 단어가 사용된 경우가 많습니다. 하지만 일괄적으로 제거할 수가 없는 것이 전치사라든가 동사의 경우에 문맥에 따라 의미가 많이 달라지기 때문입니다. 이게 한 두개가 아니라 많을 땐 단어당 백여개가 넘어가기 때문에 정리가 필요할 것 같은데, 수동 정리는 엄두가 안나고 대책이 필요한 것 같습니다. 예제 파일을 첨부합니다. 데이터 파일은 다음과 같은 구조로 되어 있습니다.(차후 gettext 형식으로 변환을 염두에 둠)
예제 파일 : [attachment=0:2w3d5h79]a.txt[/attachment:2w3d5h79]

[code:2w3d5h79]msgid by last visited msgstr 마지막 방문한 날짜 순서로[/code:2w3d5h79]

[b:2w3d5h79]2. 데이터 정리 - 번역어 정리[/b:2w3d5h79]
동일 단어에 여러가지 번역이 있는 경우가 많습니다. 번역자에 따라, 사용처에 따라, 문맥에 따라 번역이 달라지기 때문인데, 이를 하나의 단어로 모두 연결시켰습니다. 이걸 스크립트를 이용하다보니 중복된 번역어가 보입니다. 이를 없애고자 하는데, 제 실력으로는 무리네요.

[code:2w3d5h79]msgid add msgstr 더하기, 추가, 모두 추가, 추가하기, 추가됨, 추가, 더하기[/code:2w3d5h79]

[b:2w3d5h79]3. 게재 수단[/b:2w3d5h79]
현재로서는 제 서버에 설치된 미디어 위키를 사용하려고 생각중입니다. 롤모델로 잡은 것이 위키 낱말 사전이라서요. 제 서버는 (어디에 있는지 모르지만) 웹호스팅을 하시는 분께 VPS를 받아서 사용중이라 제가 돈을 지불하는한 ;;; 지속이 될 것 같습니다. 차후 용어집이 안정이 되면 좀더 안정적인 곳으로 이전을 할 계획입니다.

서버야 나중 문제고, 게재 수단은 한번 정하면 수정하기가 어렵기 때문에 조언이 필요합니다. 미디어 위키를 택한 것은 앞서 이야기한 이유 외에, 토론 기능이나 분류 기능이 있다는데 높은 점수를 주었습니다. 용어들이 안정되기까지 많은 토론이 필요할 것이며, 안정된 후에도 지속적으로 토론이 필요할테니까요. 그리고 분류 기능은 특정 카테고리(오피스, 그래픽, 멀티미디어 등)에서 사용되는 단어나 해석들을 확인하고자 할때 유용할 것 같습니다. 당분간은 구현되지 못할 기능이겠지만요. ;;;

예제 사이트 : http://web.mr-dust.pe.kr/wiki/

[b:2w3d5h79]4. 라이센스 문제[/b:2w3d5h79]
현재 번역물을 가져온 곳은 GNOME, KDE, OpenOffice.org, Firefox, GIMP, Launchpad 입니다.
GNOME과 GIMP는 GPL이고, KDE는 잘 모르겠습니다. OOo는 LGPL, Firefox는 MPL, 런치패드는 BSD입니다. 위 라이센스들을 모두 만족시키며 가장 상위(?)에 위치하는 라이센스는 아마도 BSD일 것 같은데, 맞는지 궁금합니다. 특히 KDE 쪽과 MPL 쪽에 대해 아는 바가 적어 많이 헷갈리네요. 조언 좀 부탁드립니다.

==========
마지막으로 이 용어집을 만들면서 세운 목표와 목적은 다음과 같습니다.

  1. 모든 사용자/번역자가 자유롭게 접근 가능하며, 토론 및 편집이 가능한 공개 번역 용어집 시스템을 구축한다.

  2. 번역시 가장 먼저 참조해야 할 용어집이 되도록 수준을 확보한다.

  3. 웹접근뿐만 아니라 다른 프로그램에서의 사용도 가능토록 한다. 예를 들어 데이터를 gettext 형식으로 내보내면, poedit나 pootle에서 TM의 데이터베이스로 활용이 가능하다. 또는 ko-po-check의 확장 기능으로 사용할 수도 있다.

대단하십니다…
끙;;
언제나… 수고가 많으신 Mr.Dust님께 다시한번 감사를…

[quote="Mr.Dust":1hlil4mh][b:1hlil4mh]4. 라이센스 문제[/b:1hlil4mh]
현재 번역물을 가져온 곳은 GNOME, KDE, OpenOffice.org, Firefox, GIMP, Launchpad 입니다.
GNOME과 GIMP는 GPL이고, KDE는 잘 모르겠습니다. OOo는 LGPL, Firefox는 MPL, 런치패드는 BSD입니다. 위 라이센스들을 모두 만족시키며 가장 상위(?)에 위치하는 라이센스는 아마도 BSD일 것 같은데, 맞는지 궁금합니다. 특히 KDE 쪽과 MPL 쪽에 대해 아는 바가 적어 많이 헷갈리네요. 조언 좀 부탁드립니다.[/quote:1hlil4mh]
가장 상위가 BSD는 아닐겁니다. BSD로 한다면 GPL은 걸리죠. 소스공개를 안해도 된다?
제 생각은 라이센스마다 따로 존재해야 할 듯 싶습니다.
아니면 각 저작권자에게 양해를 구해 적당한 라이센스를 선택해야 할 듯 하구요.
오픈소스라 해도 라이센스 믹싱은 쉬운 문제는 아닌가 봅니다. =.=

하루의 삽질 끝에… po파일을 db화 하는 것을 대충(?) 끝냈습니다.
po -> db는 마쳤으니, 어떻게 필드를 잘 나누어 db를 잘 정리할 것인지 생각해볼 차례인 듯… =.=

기본적으로 빼낼 수 있는 정보는, msgid, msgstr, po정보, 파일명 입니다.

http://ubuntu-ko.org/bbs/board.php?bo_table=term

중복도 있을 수 있겠지만, 우분투 언어팩 돌리니 182337단어가 나오는군요 +.+
잘 안쓰는 프로그램인거 같지만 번역 없는 것도 많은 듯…

ps. 이건 테스트용으로 만든거라 다시 만들기도 당연 가능합니다 =.=

후덜덜한 자료량이군요…;;;

오 역시 헤즈옹 …
내가 해본다니깐 굳이 해주고 흐흐 … 고맙죠 머…
그누보드 인가요 ? 그거 내용 검색 잘 안되는데 …
그거 말고 미디어 위키로 가져가 보세유 …

[quote="강분도":3ef2wgoy]오 역시 헤즈옹 …
내가 해본다니깐 굳이 해주고 흐흐 … 고맙죠 머…
그누보드 인가요 ? 그거 내용 검색 잘 안되는데 …
그거 말고 미디어 위키로 가져가 보세유 …[/quote:3ef2wgoy]
잘되기만 해요… ㅋㅋ

[quote="haze11":3pplk7tn][quote="강분도":3pplk7tn]오 역시 헤즈옹 …
내가 해본다니깐 굳이 해주고 흐흐 … 고맙죠 머…
그누보드 인가요 ? 그거 내용 검색 잘 안되는데 …
그거 말고 미디어 위키로 가져가 보세유 …[/quote:3pplk7tn]
잘되기만 해요… ㅋㅋ[/quote:3pplk7tn]
어 지금하니 잘되네…
서버에 나 벤 발랐던거죠!
홈쳐 갈까 봐 ?

[quote="강분도":1vcmbdvp][quote="haze11":1vcmbdvp][quote="강분도":1vcmbdvp]오 역시 헤즈옹 …
내가 해본다니깐 굳이 해주고 흐흐 … 고맙죠 머…
그누보드 인가요 ? 그거 내용 검색 잘 안되는데 …
그거 말고 미디어 위키로 가져가 보세유 …[/quote:1vcmbdvp]
잘되기만 해요… ㅋㅋ[/quote:1vcmbdvp]
어 지금하니 잘되네…
서버에 나 벤 발랐던거죠!
홈쳐 갈까 봐 ?[/quote:1vcmbdvp]
제 섭이 절 밴바른걸 봐서는 그럴지도 =.=
여튼 DB 후처리도 생각해봐야 할 듯

오… 멋진게 나올 것 같군요. 기대됩니다. +_+