Kaggle 에서 한글 데이터셋 CSV 파일이 깨졌다.

한글 데이터는 깨짐 현상이 발생하는 경우가 많아 다른 사람들도 이러한 문제를 많이 겪을 것 같아

이를 해결하는 방법을 포스팅해보려 한다.

 

먼저, 필자가 다운로드 하려던 데이터셋은 다음 주소의 데이터셋이다.

www.kaggle.com/c/korean-hate-speech-detection/data

 

Korean Hate Speech Detection

Identify hate speech in Korean entertainment news comments

www.kaggle.com

한국 연예기사의 댓글들을 모아놓은 데이터셋이다. 원래는 한글 데이터가 있었지만 다운로드 받아보면, 아래 사진과 같이 한글이 깨져서 보이는 것을 확인할 수 있다.

 

해결 방법

 

새 Excel 파일을 하나 실행하고 데이터탭을 클릭한다.

그리고 텍스트/CSV 를 눌러 다운로드 받은 CSV 파일을 열어보자.

 

dev.hate 파일을 열어봤다.

 

 

위의 949 한국어로 되어있는 부분을 65001 (유니코드 UTF-8)로 변경한다.

위와 같이 한국어가 정상적으로 나오는 것을 확인할 수 있다. 오른쪽 아래의 로드 버튼을 누르면 아래와 같이 로드된다.

 

매번 파일을 이렇게 불러오면 귀찮으니 '다른 이름으로 저장'해서 CSV(UTF-8) 파일로 저장했다.

 다시 확인해봤을 때도 잘 열리는 것을 확인할 수 있었다. 

+ Recent posts