Kaggle 에서 한글 데이터셋 CSV 파일이 깨졌다.
한글 데이터는 깨짐 현상이 발생하는 경우가 많아 다른 사람들도 이러한 문제를 많이 겪을 것 같아
이를 해결하는 방법을 포스팅해보려 한다.
먼저, 필자가 다운로드 하려던 데이터셋은 다음 주소의 데이터셋이다.
www.kaggle.com/c/korean-hate-speech-detection/data
한국 연예기사의 댓글들을 모아놓은 데이터셋이다. 원래는 한글 데이터가 있었지만 다운로드 받아보면, 아래 사진과 같이 한글이 깨져서 보이는 것을 확인할 수 있다.
해결 방법
새 Excel 파일을 하나 실행하고 데이터탭을 클릭한다.
그리고 텍스트/CSV 를 눌러 다운로드 받은 CSV 파일을 열어보자.
dev.hate 파일을 열어봤다.
위의 949 한국어로 되어있는 부분을 65001 (유니코드 UTF-8)로 변경한다.
위와 같이 한국어가 정상적으로 나오는 것을 확인할 수 있다. 오른쪽 아래의 로드 버튼을 누르면 아래와 같이 로드된다.
매번 파일을 이렇게 불러오면 귀찮으니 '다른 이름으로 저장'해서 CSV(UTF-8) 파일로 저장했다.
다시 확인해봤을 때도 잘 열리는 것을 확인할 수 있었다.
'인공지능 > 오류 해결' 카테고리의 다른 글
[오류해결] koBERT 사용을 위한 gluonnlp 설치 에러 해결 방법 (0) | 2021.10.18 |
---|---|
aliasing chunknize to chunknize serial 오류 (0) | 2021.04.25 |
unicodeescape codec can't decode bytes in ~~ 오류 간단히 해결! (0) | 2021.04.25 |