library(rvest)
library(httr)
list.url<-paste0("http://m.cafe.daum.net/dotax/Elgq?page=",k)
# readLines(list.url,encoding = "UTF-8")
referer <- add_headers(Referer = "http://m.search.daum.net/search?q=1") #검색해서 들어간 것처럼 위장하기위해 header를 붙여준다
tmp <- GET(list.url, referer) # GET함수를 통해 해당 서버에 통신을 함 뒤에 referer인자가 위장술
read_html(tmp) %>% html_nodes("ul.list_cafe")
link.list <- read_html(tmp) %>% html_nodes("ul.list_cafe li a") %>% html_attr("href") # 게시글의 링크를 가져오기
link.list<-link.list[!str_detect(link.list,"comment")]
url_list <- paste0("http://m.cafe.daum.net", link.list,"/?q=1")
contents<-c()
for(i in 1:length(url_list)){
# readLines("http://m.cafe.daum.net/dotax/Elgq/3110449/?q=1")
paragraph <- GET(url_list[i], referer)
b<-as.character(paragraph)
# read_html(paragraph) %>% html_nodes("div.view_info")
d<-read_html(paragraph) %>% html_nodes("div.view_info") %>% html_text()
content<-gsub("\t|\r|\n","",d) ##게시글
contents<-c(contents,content)
}
contents
R로 하는 웹 크롤링 - 입문편(할인쿠폰코드) 236-69fc51d93a53
https://www.inflearn.com/course/R-crawling#
R로 하는 웹 크롤링 - 실전편 (할인쿠폰코드) 237-55c672aeb038
https://www.inflearn.com/course/R-crawling-2#
R로 하는 텍스트마이닝 (Top keyword부터 감성분석까지) (할인쿠폰코드) 238-c86096730061
https://www.inflearn.com/course/R-text-mining#
R로 무작정 해보는 data science (할인쿠폰코드) 310-c6164f3d9be9
https://www.inflearn.com/course/R-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4-%EB%9D%BC%EC%9D%B4%EB%B8%8C%EC%BD%94%EB%94%A9#
R로 무작정 해보는 data science - 인프런
R을 통해 무작정 datascience를 해보는 강의 입니다. 데이터를 불러오는 것부터 모델 구축 및 모델 성능 전략까지 한줄한줄 쳐보면서 배웁니다. 중급 데이터 분석 데이터 사이언스 R 데이터 분석 데이터 과학 온라인 강의 머신러닝 모델 구축 및 성능 향상까지 라이브 코딩으로 배우는 R 데이터 분석
www.inflearn.com
'R-크롤링' 카테고리의 다른 글
셀레늄을 통한 네이버 로그인 (0) | 2019.12.12 |
---|---|
이미지 크롤링 (0) | 2019.12.12 |
네이버 블로그 크롤링 (0) | 2019.12.12 |
야구 뉴스 수집 크롤링 (0) | 2019.12.12 |
내 주변 카페리스트 수집하기 (0) | 2019.12.12 |
댓글