Txt 파일 인코딩 euc-kr utf-8

Circleses · 6월 8, 2012, 12:25오후

안녕하세요. 우분투와 윈도우의 txt파일은 서로 깨져서 하나로만 할려고 합니다만, euc-kr과 utf-8중 어느게 나을까요?
우분투를 주로 쓰긴하지만 웹 등에 올릴경우도 생각해서 말이죠. 얼핏 보기에는 utf-8이 좋아보이는데… 여러분은 어떤가요?

draco · 6월 8, 2012, 1:47오후

윈도우의 메모장이나, 우분투의 Gedit 모두
euc-kr과 utf-8을 지원합니다.
그래서 둘다 큰 상관은 없구요.

그래도 다른 호환성이나, 웹에 대응하신다면 utf-8이 낫겠네요.

tinywolf · 6월 18, 2012, 11:21오전

어디에든 대응한다면 UTF-8이 훨씬 좋은 선택입니다.
윈도우 메모장도 UTF-8은 제대로 지원하지만, 새줄 문자가 윈도는 '/r/n’이고 맥은 '/r’이고 리눅스는 '/n’이라서…
우분투에서 만들어진 파일을 윈도에서 열면 한줄로 출력되는 문제가 있을껍니다.
물론 윈도에서도 [url=http://notepad-plus-plus.org/:c3demmqq]notepad++[/url:c3demmqq]나 [url=http://www.editplus.com/kr/:c3demmqq]editplus[/url:c3demmqq] 같은 메모장을 사용하신다면 잘 열어집니다.

protochaos · 6월 18, 2012, 12:14오후

/r /n의 문제는 인코딩과 관계없습니다.

도스와 유닉스계열의 텍스파일 처리 형식의 차이로 인한것으로,

아스키코드 10(0A)는 CR(carriage return), 13(0D)는 LF(line feed)인데…
유닉스계열은 줄바꿈을 라인피드 하나로만 처리하지만…
도스계열은 두개로 처리하거든요…
유닉스계열 vi에서 도스 텍스트파일을 읽으면 ^M이 보이는데… 이것이 CR입니다.
반대로 도스계열에서 유닉스계열 텍스트파일을 읽으면, 이상한기호(LF)와 함께 주르륵 붙어 나옵니다.
메모장에서도 마찬가지이니… 저는 극히 메모장을 싫어합니다.
notepad2나 notepad++등을 사용합니다.

파일 인코딩에 대해서 말씀드리자면…

euc-kr은 영문1바이트 한글2바이트로 처리
utf-8은 영문1바이트 한글3바이트로 처리
unicode는 영문,한글 모두 2바이트로 처리

저장공간 효율면에서는
영문 위주에 한글이 조금이라면 utf-8이 유리
한글위주라면 euc-kr이 유리

호환성측면에서는
utf-8이 euc-kr보다 유리합니다.
그이유는 단순히 유니코드라 다른 문자셋을 표현할 수 있다는 것 뿐만이 아니라…
그 규칙성에 의해서 인코딩을 자동으로 알아내기 쉽습니다.
그러한 관계로… 웹브라우져에서 인코딩을 자동 검출할때, utf-8인 경우는 별 문제가 안되나…
euc-kr(ms 949)같은 형태는 깨져서 보이기도 합니다.

cogniti1 · 6월 18, 2012, 4:26오후

간단히 설명하자면, euc-kr 은 표현 못하는 한글이 있으나 utf-8 은 모든 현대 한글(11,172개)이 표현됩니다.
euc-kr 포맷은 구닥다리 포맷이며 새로 생성하는 문서는 특별한 이유가 없는 이상 utf-8 로 생성하는 것이 좋습니다.

tinywolf · 6월 21, 2012, 11:28오전

protochaos씨가 잘 설명해 주셨네요.

[quote="protochaos":355kd27e]/r /n의 문제는 인코딩과 관계없습니다.[/quote:355kd27e]네, 인코딩과는 관계없지요. 그건 아실껍니다 아마.

[quote="protochaos":355kd27e]저장공간 효율면에서는
영문 위주에 한글이 조금이라면 utf-8이 유리
한글위주라면 euc-kr이 유리[/quote:355kd27e]저장공간은 최악의 경우 UTF-8이 2배정도 많이 나옵니다만,
지금은 저장매체가 저렴한 편이고 텍스트 데이터들은 이진 데이터들에 비해 크기도 작은 편이며 압축도 잘 되니까…

[quote="protochaos":355kd27e]호환성측면에서는
utf-8이 euc-kr보다 유리합니다.
그이유는 단순히 유니코드라 다른 문자셋을 표현할 수 있다는 것 뿐만이 아니라…
그 규칙성에 의해서 인코딩을 자동으로 알아내기 쉽습니다.
그러한 관계로… 웹브라우져에서 인코딩을 자동 검출할때, utf-8인 경우는 별 문제가 안되나…
euc-kr(ms 949)같은 형태는 깨져서 보이기도 합니다.[/quote:355kd27e]이게 가장 큰 장점입니다.
UTF-8은 모든 언어를 표현할 수 있는 Unicode를 담을 수 있는 인코딩 방식이니까요.
하나의 문서에 중국어, 일어, 한글, 그리스 문자 등등을 다 넣을 수 있습니다.
반면에 EUC-KR(혹은 CP949, UHC)이나 Shift-JIS같은 ANSI기반의 국가 언어 코드는
서로 겹치는 영역에 다른 문자를 코딩하고 있기 때문에 같이 섞어 쓸 수 없습니다.
서로 마구 섞여있다면 protochaos씨가 지적하신 것 같이 자동으로 구분하기도 어렵구요.

그래서 UTF-8을 다시 한번 강력하게 추천합니다!
더불어 각종 음원 사이트들 mp3 태그도 유니코드로 좀 해주었으면 하는 바램도 있습니다. ㅠㅠ (건의해도 씨알도 안 맥혀요.)