사용법2019. 2. 14. 23:42

해당 블로그를 참조했습니다. https://lovit.github.io/nlp/2018/04/17/word_cloud/


이정민 학생과 같이 제작중입니다. https://jeongmin-lee.tistory.com/53

해당 코드 깃허브 주소입니다. https://github.com/choinamki/everytime_crawler/



인터넷을 돌아다니다가 월드오브탱크 갤러리 게시글을 수집하여 만든 워드클라우드를 보고 흥미가 동했습니다.

그래서 호기심에 제가 자주 보는 에브리타임 게시글로 워드클라우드를 만들어 보기로 했고, 제작한 코드를 이정민 학생과 같이 수정중에 있습니다.



작동 원리는 에브리타임 홈페이지에 접속하여 로그인을 한 뒤 자유게시판 버튼의 XPATH 값을 찾아서 클릭합니다.


페이지 하나당 20개의 자유게시판 글들이 보여집니다.  FIND_NUM 만큼 돌아서 총 FIND_NUM * 20만큼의 게시글 접속링크를 얻을 수 있습니다.



everytime_link.txt 로 해당하는 접속링크를 저장합니다.




이것을 가지고서 각 게시글의 접속, 해당하는 게시글의 텍스트를 가져와서 json 형식으로 저장합니다.



해당하는 텍스트 들을 하나의 str 로 만들어 kr-wordrank를 이용하여 단어와 빈도수로 만든 뒤 이것을 통해 wordcloud를 만듭니다.




워드클라우드를 기본폰트로 만들면 한글이 깨지기 때문에 한글을 표시할 수 있는 폰트가 필요합니다.

저는 나눔고딕을 사용했습니다.





plt 를 사용하여 워드클라우드 그림을 그리고 저장할 수 있습니다.

Posted by richcherry