빅데이터 전문가 되기

Crawling시 한글 깨짐 현상 해결 본문

Python

Crawling시 한글 깨짐 현상 해결

지야소이 2023. 7. 2. 21:36

Crawling을 할 때 한글이 깨지는 현상이 나타날 수 있습니다. 

 

저 또한 한글 깨짐 현상으로 인하여 문제해결법에 대하여 열심히 찾아보았습니다.

 

아래는 제가 한글 깨짐 현상이 나타났던 문제의 코드입니다.

 

Python을 활용한 Wordcloud (네이버 뉴스)

앞서, 네이버 뉴스를 Crawling한 것을 이용하여 Wordcloud를 해보겠습니다. 이 전에 네이버 뉴스를 Crawling 한 내용입니다. Python을 활용한 Crawling (네이버 뉴스) 앞서, Python을 활용하여 지식백과를 Crawlin

hi-210.tistory.com

 

 

👉 한글 깨짐 현상

 

- 이 때는 폰트의 경로를 지정해주는 것이 좋습니다. 

  # 폰트 파일의 경로로 수정
  FONT_PATH = 'C:\\Windows\\Fonts\\NanumGothic.ttf'

  wc=WordCloud(background_color="white",width=200,height=100,random_state=43,font_path=FONT_PATH)
  wc.generate_from_frequencies(top_keywords)

  plt.figure(figsize=(6,6))
  plt.imshow(wc)
  plt.axis("off")
  plt.tight_layout(pad=0)
  plt.show()

- 폰트의 경로에 지정한 fonts가 있는지 제대로 확인해줍니다.

- 하지만 이렇게 해도 안될 경우가 있습니다.

 

 

 

 

👉 resoure 에러 현상

- 폰트가 있다는 것을 확인했는데도 리소스를 열수 없다고 뜨는 에러입니다.

- 이 때는 fonts의 내용이 제대로 설정이 되지 않았기 때문입니다.

- 따라서 google에서 Everything을 설치한 후 fonts의 폴더를 찾습니다.

 

 < everything 다운로드 주소 >

 

voidtools

 

www.voidtools.com

 

- 다운받은 everything에서 fonts를 찾습니다.

- 이 때, anaconda3\LIb\~~~\HTML-CSS\fonts의 폴더를 찾아서 들어가줍니다.

 

 

- fonts 폴더에 본인이 원하는 글꼴을 넣어줍니다. 

- 이 때 글꼴 형식은 .ttf로 넣어주었습니다.

- 경로를 복사하여 가져옵니다. 

 

 

# 폰트 파일의 경로로 수정
  FONT_PATH = r'C:\Users\sd\anaconda3\pkgs\notebook-6.4.12-py39haa95532_0\Lib\site-packages\notebook\static\components\MathJax\jax\output\HTML-CSS\fonts\NanumGothic.ttf'

  wc=WordCloud(background_color="white",width=800,height=800,random_state=43, font_path=FONT_PATH)
  wc.generate_from_frequencies(top_keywords)

  plt.figure(figsize=(8,8))
  plt.imshow(wc)
  plt.axis("off")
  plt.tight_layout(pad=0)
  plt.show()

- 경로를 복사한 것을 넣어줍니다.

 

 

- Crawling이 된다는 것을 알 수 있습니다. 

Comments