Tag Archives: 앤코딩

[STATA 14] 깨진 한글 Label 살리기

이번에는 한국노동패널(KLIPS)를 이용하여 깨진 한글 레이블을 살려보자.

이번에 사용할 명령어는 “unicode”를 지원하는 STATA 버전 14부터 가능한 것으로 알고 있으니… 참고하자.

우선 한국노동연구원에서 KLIPS 자료를 다운받아 압축을 풀면 아래와 같다.

압축을 푼 뒤 아무자료나 STATA로 열어보면 열심히 타이핑된 Label이 모두 깨져 있는 것을 확인 할 수 있다. 처음 이 화면을 보면 정말… 충격과 공포…가….ㅠ

자 이제 인코딩이란 것을 하여 깨진 글자를 한글로 다시 맞추는 일을 해보자.

Step 1.

우선 로딩된 화면이 아무것도 나타나지 않도록 “clear” 명령을 써준다.

.clear

Step 2.

그 뒤 “cd” 명령어로 작업용 폴더를 설정해 준다

.cd “/Users/CharlieShin/Desktop/KLIPS/1-18차 무응답대체 데이터_20170417”

Step 3.

변환 할 언어 인코딩 설정 (대부분의 한글이 깨지는 경우는 euc-kr 이다)

.unicode encoding set euc-kr

Step 4.

이제 작업 폴더 안에 있는 모든 STATA 파일들 (.dta를 확장자로가진 모든 파일들)을 변환하도록 한다.

코드의 해석을 하자면 “모든 dta확장자를 가진 파일들을 euc-kr에서 utf-8형식으로 번역시켜라.” 정도?

.unicode translate *.dta, transutf8

약간의 시간이 흐르면

위와 같은 메시지가 뜬다.

빨간 글씨는 없는게 좋긴하겠지만…가끔 번역이 안되는 레이블이 한두개씩 있나보다.

아무튼 번역 안되는 레이블을 제외하고는 모두 번역이 되어 있으니 이제 파일을 열어보자.

이럴땐

.unicode translate *.dta, transutf8 invalid(ignore)

를 사용해주면 된다. Invalid한 레이블이 있을때 무시하라 라는 뜻이다.

아무튼 결과는 아래와 같다.

깔끔하게 번역 완료! ㅎ