본문 바로가기
R-크롤링

dotax (다음카페) 크롤링

by 미스터탁 2019. 12. 12.


library(rvest)
library(httr)



list.url<-paste0("http://m.cafe.daum.net/dotax/Elgq?page=",k)
# readLines(list.url,encoding = "UTF-8")
referer <- add_headers(Referer = "http://m.search.daum.net/search?q=1") #검색해서 들어간 것처럼 위장하기위해 header를 붙여준다
tmp <- GET(list.url, referer) # GET함수를 통해 해당 서버에 통신을 함 뒤에 referer인자가 위장술

read_html(tmp) %>% html_nodes("ul.list_cafe")

link.list <- read_html(tmp) %>% html_nodes("ul.list_cafe li a") %>% html_attr("href") # 게시글의 링크를 가져오기

link.list<-link.list[!str_detect(link.list,"comment")]
url_list <- paste0("http://m.cafe.daum.net", link.list,"/?q=1")

contents<-c()
for(i in 1:length(url_list)){
  # readLines("http://m.cafe.daum.net/dotax/Elgq/3110449/?q=1")
  paragraph <- GET(url_list[i], referer) 
  b<-as.character(paragraph)
  # read_html(paragraph) %>% html_nodes("div.view_info")
  d<-read_html(paragraph) %>% html_nodes("div.view_info") %>% html_text()
 
  content<-gsub("\t|\r|\n","",d) ##게시글
  contents<-c(contents,content)
  
}
contents

 

 

인프런 강의 할인 쿠폰 코드입니다.

R로 하는 웹 크롤링 - 입문편(할인쿠폰코드) 236-69fc51d93a53 
https://www.inflearn.com/course/R-crawling# 

R로 하는 웹 크롤링 - 실전편 (할인쿠폰코드) 237-55c672aeb038 
https://www.inflearn.com/course/R-crawling-2# 

R로 하는 텍스트마이닝 (Top keyword부터 감성분석까지) (할인쿠폰코드) 238-c86096730061 
https://www.inflearn.com/course/R-text-mining#

 

R로 무작정 해보는 data science (할인쿠폰코드) 310-c6164f3d9be9 
https://www.inflearn.com/course/R-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4-%EB%9D%BC%EC%9D%B4%EB%B8%8C%EC%BD%94%EB%94%A9#

 

R로 무작정 해보는 data science - 인프런

R을 통해 무작정 datascience를 해보는 강의 입니다. 데이터를 불러오는 것부터 모델 구축 및 모델 성능 전략까지 한줄한줄 쳐보면서 배웁니다. 중급 데이터 분석 데이터 사이언스 R 데이터 분석 데이터 과학 온라인 강의 머신러닝 모델 구축 및 성능 향상까지 라이브 코딩으로 배우는 R 데이터 분석

www.inflearn.com

 

반응형

'R-크롤링' 카테고리의 다른 글

셀레늄을 통한 네이버 로그인  (0) 2019.12.12
이미지 크롤링  (0) 2019.12.12
네이버 블로그 크롤링  (0) 2019.12.12
야구 뉴스 수집 크롤링  (0) 2019.12.12
내 주변 카페리스트 수집하기  (0) 2019.12.12

댓글