키워드 소식
•
목적
◦
주요 sns 사이트에서 키워드를 검색했을 때 나오는 결과를 수집
◦
위 수집된 결과를 한눈에 볼 수 있도록 함
◦
키워드를 그룹 내에 모아서 저장
키워드소식 기능 이란?
•
주요 SNS 사이트에서 키워드 검색 시 나오는 결과를 수집하여 한눈에 보여주는 기능
프로젝트 개요
•
키워드소식결과 수집 대상 사이트
◦
인스타그램
◦
페이스북
◦
트위터
•
사용자에게 제공할 기능
◦
각 사이트에서 특정 키워드를 검색시 나오는 결과를 수집하여 보여준다
◦
검색 결과 목록에서만 보이는 정보로는 사용자에게 유의미한 정보를 제공하기 어렵다
▪
때문에, 목록 결과에서 상세페이지까지 진입하여 정보를 수집해와야 한다.
◦
모니터링 서비스 화면에서 사용자가 키워드 입력시, 실시간으로 각 사이트에서 결과를 수집해서 보여준다.
배경 지식
•
인스타그램의 경우 모든 서비스는 로그인해서 사용가능하다.
◦
인스타그램 크롤링 시 (가상 브라우저 등의 방법을 이용하여) 로그인을 한 후 크롤링이 필요하다.
•
1차 파싱
◦
각 사이트에서 키워드 검색 후 검색 결과 목록에서 얻어온 정보만을 수집
•
2차 파싱
◦
검색 결과 목록에서 얻을 수 있는 정보는 한정적이다. 검색결과 목록 에서 상세페이지로 진입한 후 결과를 수집한다.
요구사항
•
사용자가 모니터링 서비스 화면에서 키워드 입력시
◦
1-2차 파싱 결과까지 받아오는 데에 오랜 시간이 걸리면 안된다
•
1차 파싱 결과에서 2차파싱 결과로
•
동일한 내용의 컨텐츠는 1개만 보여준다(중복컨텐츠는 제외시키고 노출)
구현
크롤링 로직 코드 구현
크롤링을 동작시키기 위한 인프라
1.
puppeteer 를 이용한 기본 방식
?__a=1 query 를 붙여서 json 타입으로 받는 방식