Kaggle 에서 한글 데이터셋 CSV 파일이 깨졌다.

한글 데이터는 깨짐 현상이 발생하는 경우가 많아 다른 사람들도 이러한 문제를 많이 겪을 것 같아

이를 해결하는 방법을 포스팅해보려 한다.

 

먼저, 필자가 다운로드 하려던 데이터셋은 다음 주소의 데이터셋이다.

www.kaggle.com/c/korean-hate-speech-detection/data

 

Korean Hate Speech Detection

Identify hate speech in Korean entertainment news comments

www.kaggle.com

한국 연예기사의 댓글들을 모아놓은 데이터셋이다. 원래는 한글 데이터가 있었지만 다운로드 받아보면, 아래 사진과 같이 한글이 깨져서 보이는 것을 확인할 수 있다.

 

해결 방법

 

새 Excel 파일을 하나 실행하고 데이터탭을 클릭한다.

그리고 텍스트/CSV 를 눌러 다운로드 받은 CSV 파일을 열어보자.

 

dev.hate 파일을 열어봤다.

 

 

위의 949 한국어로 되어있는 부분을 65001 (유니코드 UTF-8)로 변경한다.

위와 같이 한국어가 정상적으로 나오는 것을 확인할 수 있다. 오른쪽 아래의 로드 버튼을 누르면 아래와 같이 로드된다.

 

매번 파일을 이렇게 불러오면 귀찮으니 '다른 이름으로 저장'해서 CSV(UTF-8) 파일로 저장했다.

 다시 확인해봤을 때도 잘 열리는 것을 확인할 수 있었다. 

Pycharm Community 를 설치해보자.

Pycharm 은 Python 언어로 코딩할 때 사용하는 Editor 이다. Anaconda 와도 연동이 가능하고, 프로젝트 관리가 편해서 설치하려 한다. 

 

Pycharm Community 설치

먼저 Google 검색창에 Pycharm 이라고 검색한다.

맨 첫번째로 보이는 홈페이지 (https://www.jetbrains.com)에 접속한다.

오른쪽 아래의 Cookies 로 시작하는 검은색 창은 쿠키 수집을 허용하겠냐는 경고문이다. 아마 GDPR 때문에 쿠키수집에 대해 동의를 받는 것 같다. Yes, I agree 를 누르거나 X로 닫아버려도 된다.

 

그리고 오른쪽의 Community(무료) 버전을 다운로드 받는다.

왼쪽의 Professional 버전은 프로 개발자용으로 유료 버전이다. 비용을 지불하지 않으면 무료 평가판 버전을 다운로드 받을 수 있다. 

 

다운로드 받으면 이렇게 감사하다는 페이지가 뜨면서 어떤 파일이 다운로드된다.

페이지는 이제 닫아버려도 좋다.

 

다운로드된 exe 파일을 실행시켜 파이참을 다운로드 받자.

next 를 눌러 다음 단계로 진행한다.

Browse 를 클릭해서 파이참이 설치되길 원하는 경로를 바꿔주어도 좋다.

저는 굳이 변경할 필요가 없어서 그대로 두었습니다. 

그리고 Next 를 클릭해 다음 단계를 진행합니다.

Desktop (바탕화면)에 바로가기(shortcut)를 만들 것인지, 환경 변수(PATH variable)를 추가할 것인지 등의 옵션을 묻는 화면이다. 환경 변수를 추가하면 설치 완료 후 재시작이 필요하므로 주의해서 체크하시길 바랍니다.

원하는 옵션을 체크해준 뒤 Next 를 눌러 다음 단계를 진행합니다.

 

Shortcut 옵션을 체크해서인지 시작 메뉴의 어떤 폴더에 shortcut 을 추가할 것인지 묻는 화면이 나왔다. 기본 설정인 JetBrains 으로 하고 Install 을 눌러 설치를 진행했다.

 

설치가 완료되면 재시작하겠냐는 창이 뜨고 Finish 버튼이 나온다.

아까 환경변수 추가를 선택했기 때문에 정상적인 작동을 위해 Reboot now 를 선택하고 Finish 를 눌러 설치를 마쳤다.

바탕화면과 시작 메뉴에 파이참 바로가기가 생성된 것을 확인할 수 있다.

 

프로젝트 시작

파이참을 실행하면 처음에는 아래와 같은 화면이 실행된다.

Jetbrains 의 이용 약관에 동의여부를 묻는 화면이다. 동의하지 않으면 서비스를 사용할 수 없으므로 아래 체크박스를 체크하여 약관에 동의하고 Continue 버튼을 눌러 진행한다.

 

파이참에서 개발할 때 발생하는 data를 본사로 보내 서비스 발전에 기여하겠냐고 묻는 창이다. Don't Send 를 누르면 data 가 보내지지 않고, Send Anonymous Statistics 를 누르면 개발할 때의 data 가 익명으로 보내지는 듯하다. 어떤 옵션이든 개발에 영향을 끼치지는 않으므로 원하는 옵션을 선택한다.

 

 드디어 파이참이 실행되었다!! 새로운 프로젝트를 시작하기 위해 + 모양의 박스인 New Project 를 클릭한다.

 

① 번 영역이 파이참 프로젝트를 저장하는 경로이다. 변경하고 싶다면 오른쪽 끝에 있는 폴더 아이콘을 눌러 변경할 수 있다. 또, 프로젝트 이름도 pythonProject 라고 되어있는데 프로젝트 이름을 변경하고 싶다면 직접 변경하면 된다.

② 번 영역은 사용할 인터프리터를 변경하는 영역이다. 

Python 인터프리터가 무엇인지 모르겠거나, 변경할 필요가 없다면 넘어가도 좋다. 필자의 경우 Anaconda 가상 환경과 연동하여 Anaconda 환경의 인터프리터를 사용할 예정이다. 하지만 아직 Anaconda 를 설치하지 않았으므로 이번에는 그냥 넘어간다. 아나콘다 설치 후 연동하는 방법에 대해 포스팅할 생각이다 (아주 간단하다)

 

설정이 끝났다면 Create 를 클릭하여 프로젝트를 생성해보자.

파이썬 프로젝트 화면이 뜨고, Tip 이 나온다. 파이참 사용에 대한 팁을 매일 알려주는데 왼쪽 아래 Don't show tips 체크박스를 체크하고 창을 닫으면 다음부터는 창이 뜨지 않는다.

 

필자의 컴퓨터에는 파이썬이 설치되어 있지 않아 위와 같이 파이썬 설치에 대한 창이 떴다.

그리고 굉장히 친절하게도 Python 3.8.8 을 설치해주는 실행창이 떴다.

하지만 컴퓨터에 파이썬을 깔지 않고, Anaconda 에서만 실행할 생각이기 때문에 아니요를 눌러 창을 닫고 종료했다.

 

인터프리터는 없지만 기본적으로 제공되는 main.py 는 제대로 뜨는 것을 확인할 수 있었다.

 

이제 다음 포스팅은 anaconda, Jupyter 를 설치하고 anaconda 와 Jupyter 연동, Anaconda와 Pycharm 을 연결하는 것을 각각 할 예정이다. 

+ Recent posts