koBERT 사용을 위해서 pip install gluonnlp 도 해보고 conda install gluonnlp도 해보고 mxnet 버전도 바꿔서 설치해보고 여러가지를 다 해봤다.

오류 화면

그런데 계속 위와 같이 오류가 났다. 열심히 구글링 해봤지만 답이 없어서 네이버를 찾아봤는데, 어떤 정말 고마우신 분께서 오류를 정리해서 올려주셔서 공유한다.

 

▼▼▼▼▼

https://blog.naver.com/hawk0987/222437326932

 

[Anaconda] gluonnlp 설치 오류

anaconda prompt에서 gluonnlp를 설치하는 과정에서 오류 발생 pip install gluonnlp 명령어를 통해 설치를...

blog.naver.com

▲▲▲▲▲

 

정말 감사한 분이다..

버전이 낮다고 warning은 뜨지만, 일단 error는 아니다!

gensim 패키지를 사용한 코드를 실행하다가 아래와 같은 오류가 떴다.

Stackoverflow 를 찾아보니 다음과 같이 해결했다.

import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

import gensim

stackoverflow.com/questions/41658568/chunkize-warning-while-installing-gensim

신나게 코딩하다가 갑자기 이런 오류가 나왔다.

파일 경로명에 무슨 오류가 생긴 것 같다.

 

찾아보니 \(역슬래시) 표시를 /(슬래시)표시로 바꿔주면 된단다.

 

이렇게 슬래시표시로 바꿔서 오류 해결!!

Kaggle 에서 한글 데이터셋 CSV 파일이 깨졌다.

한글 데이터는 깨짐 현상이 발생하는 경우가 많아 다른 사람들도 이러한 문제를 많이 겪을 것 같아

이를 해결하는 방법을 포스팅해보려 한다.

 

먼저, 필자가 다운로드 하려던 데이터셋은 다음 주소의 데이터셋이다.

www.kaggle.com/c/korean-hate-speech-detection/data

 

Korean Hate Speech Detection

Identify hate speech in Korean entertainment news comments

www.kaggle.com

한국 연예기사의 댓글들을 모아놓은 데이터셋이다. 원래는 한글 데이터가 있었지만 다운로드 받아보면, 아래 사진과 같이 한글이 깨져서 보이는 것을 확인할 수 있다.

 

해결 방법

 

새 Excel 파일을 하나 실행하고 데이터탭을 클릭한다.

그리고 텍스트/CSV 를 눌러 다운로드 받은 CSV 파일을 열어보자.

 

dev.hate 파일을 열어봤다.

 

 

위의 949 한국어로 되어있는 부분을 65001 (유니코드 UTF-8)로 변경한다.

위와 같이 한국어가 정상적으로 나오는 것을 확인할 수 있다. 오른쪽 아래의 로드 버튼을 누르면 아래와 같이 로드된다.

 

매번 파일을 이렇게 불러오면 귀찮으니 '다른 이름으로 저장'해서 CSV(UTF-8) 파일로 저장했다.

 다시 확인해봤을 때도 잘 열리는 것을 확인할 수 있었다. 

+ Recent posts