'셀레니움' 태그의 글 목록

'셀레니움'에 해당되는 글 3건

2019.03.22 셀레니움 - 구글 번역기 사용하기
2019.02.14 셀레니움 사용 - 에브리타임 크롤러와 워드클라우드 7
2019.02.13 셀레니움 사용

셀레니움 - 구글 번역기 사용하기

github 주소입니다. https://github.com/choinamki/google_translate_useing_selenium

수집한 데이터가 영어가 아니라서 lda를 사용 할 수 없었습니다.

lda를 사용하기 위해서 구글 번역기(google translate) 홈페이지에 접속해서 문장을 번역하는 코드를 만들었습니다.

각 나라 언어들을 구글 번역기를 이용하여 영어로 번역시켜 줍니다.

'공부' 카테고리의 다른 글

영상처리 opencv Histogram equalization (0)	2019.10.16
영상처리 opencv resize함수 Bilinear interpolation (0)	2019.09.27
텐서플로우 사용한 2개의 층을 가진 CNN 입니다. (0)	2019.01.15
파이썬3 google smtp 메일 보내기 입니다. (0)	2019.01.15
텐서플로우 xor 네트워크 입니다. (0)	2019.01.15

Posted by richcherry

셀레니움 사용 - 에브리타임 크롤러와 워드클라우드

해당 블로그를 참조했습니다. https://lovit.github.io/nlp/2018/04/17/word_cloud/

이정민 학생과 같이 제작중입니다. https://jeongmin-lee.tistory.com/53

해당 코드 깃허브 주소입니다. https://github.com/choinamki/everytime_crawler/

인터넷을 돌아다니다가 월드오브탱크 갤러리 게시글을 수집하여 만든 워드클라우드를 보고 흥미가 동했습니다.

그래서 호기심에 제가 자주 보는 에브리타임 게시글로 워드클라우드를 만들어 보기로 했고, 제작한 코드를 이정민 학생과 같이 수정중에 있습니다.

작동 원리는 에브리타임 홈페이지에 접속하여 로그인을 한 뒤 자유게시판 버튼의 XPATH 값을 찾아서 클릭합니다.

페이지 하나당 20개의 자유게시판 글들이 보여집니다. FIND_NUM 만큼 돌아서 총 FIND_NUM * 20만큼의 게시글 접속링크를 얻을 수 있습니다.

everytime_link.txt 로 해당하는 접속링크를 저장합니다.

이것을 가지고서 각 게시글의 접속, 해당하는 게시글의 텍스트를 가져와서 json 형식으로 저장합니다.

해당하는 텍스트 들을 하나의 str 로 만들어 kr-wordrank를 이용하여 단어와 빈도수로 만든 뒤 이것을 통해 wordcloud를 만듭니다.

워드클라우드를 기본폰트로 만들면 한글이 깨지기 때문에 한글을 표시할 수 있는 폰트가 필요합니다.

저는 나눔고딕을 사용했습니다.

plt 를 사용하여 워드클라우드 그림을 그리고 저장할 수 있습니다.

'사용법' 카테고리의 다른 글

구글 홈으로 컴퓨터를 제어해 보자. - EventGhost 를 이용 컴퓨터 제어 (9)	2019.06.21
구글 홈으로 컴퓨터를 제어해 보자. - wol 이용 컴퓨터 켜기 (5)	2019.02.23
셀레니움 사용 (0)	2019.02.13
weka 사용법 - 3. Visualize (0)	2018.12.20
weka 사용법 - 2. 실행 (0)	2018.12.01

Posted by richcherry

셀레니움 사용

크롤러를 만들다가 request get 을 해도 특정 부분이 없는 현상이 있었습니다.

찾아보니까 동적인 웹페이지는 코드를 통해서 문서가 만들어져 일부분만 가져와진다고 합니다.

그래서 Selelnium 을 이용하여 chormdriver 로 웹페이지를 수집하는 크롤러를 만들었습니다.

1. 먼저 크롬 드라이버를 준비합니다.

링크 : http://chromedriver.chromium.org/downloads

자신의 운영체제 환경에 맞는 파일을 준비하시면 됩니다.

2. 셀레니움을 인스톨합니다.

!pip install selenium

을 통해 selenium 라이브러리를 깔아줍니다.

3. 코드를 작성합니다.

저는 대학교 커뮤니티 사이트인 에브리타임의 게시판 글과 데이터를 수집하기 위해서 셀레니움을 사용했습니다.

webdriver.Chrome 에 자신의 크롬드라이버가 있는 경로를 적어주시고

implicitly_wait 에 자신의 웹 브라우저가 암묵적으로 웹자원이 로드되는 시간이 얼마까지 기다리는지를 설정합니다.

driver.get 을 통해서 해당 웹페이지를 접속합니다.

아래 사진은 크롬드라이버가 작동한 예입니다.

윗 그림처럼 Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다. 라는 문구와 함께 작동하게 됩니다.

해당하는 코드를 보시고 everyrtime 의 아이디값과 패스워드 값을 입력하시면 웹브라우저가 자동으로 로그인을 하여 자유게시판을 클릭하는 모습을 볼 수 있습니다.

저는 everytime 게시판의 텍스트를 수집해서 워드클라우드를 만들어봤습니다.

자세한 내용은 코드가 다듬어지는 대로 전체 코드와 함께 설명하겠습니다.

'사용법' 카테고리의 다른 글

구글 홈으로 컴퓨터를 제어해 보자. - wol 이용 컴퓨터 켜기 (5)	2019.02.23
셀레니움 사용 - 에브리타임 크롤러와 워드클라우드 (7)	2019.02.14
weka 사용법 - 3. Visualize (0)	2018.12.20
weka 사용법 - 2. 실행 (0)	2018.12.01
weka 사용법 - 1. 설치 (0)	2018.11.25

Posted by richcherry

개발자 최남기

'셀레니움'에 해당되는 글 3건

셀레니움 - 구글 번역기 사용하기

'공부' 카테고리의 다른 글

셀레니움 사용 - 에브리타임 크롤러와 워드클라우드

'사용법' 카테고리의 다른 글

셀레니움 사용

'사용법' 카테고리의 다른 글

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바

« » 2025.5
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31