///
Search
Duplicate

키워드 소식

키워드 소식

목적
주요 sns 사이트에서 키워드를 검색했을 때 나오는 결과를 수집
위 수집된 결과를 한눈에 볼 수 있도록 함
키워드를 그룹 내에 모아서 저장

키워드소식 기능 이란?

주요 SNS 사이트에서 키워드 검색 시 나오는 결과를 수집하여 한눈에 보여주는 기능

프로젝트 개요

키워드소식결과 수집 대상 사이트
인스타그램
페이스북
트위터
사용자에게 제공할 기능
각 사이트에서 특정 키워드를 검색시 나오는 결과를 수집하여 보여준다
검색 결과 목록에서만 보이는 정보로는 사용자에게 유의미한 정보를 제공하기 어렵다
때문에, 목록 결과에서 상세페이지까지 진입하여 정보를 수집해와야 한다.
모니터링 서비스 화면에서 사용자가 키워드 입력시, 실시간으로 각 사이트에서 결과를 수집해서 보여준다.

배경 지식

인스타그램의 경우 모든 서비스는 로그인해서 사용가능하다.
인스타그램 크롤링 시 (가상 브라우저 등의 방법을 이용하여) 로그인을 한 후 크롤링이 필요하다.
1차 파싱
각 사이트에서 키워드 검색 후 검색 결과 목록에서 얻어온 정보만을 수집
2차 파싱
검색 결과 목록에서 얻을 수 있는 정보는 한정적이다. 검색결과 목록 에서 상세페이지로 진입한 후 결과를 수집한다.

요구사항

사용자가 모니터링 서비스 화면에서 키워드 입력시
1-2차 파싱 결과까지 받아오는 데에 오랜 시간이 걸리면 안된다
1차 파싱 결과에서 2차파싱 결과로
동일한 내용의 컨텐츠는 1개만 보여준다(중복컨텐츠는 제외시키고 노출)

구현

크롤링 로직 코드 구현

크롤링을 동작시키기 위한 인프라

1.
puppeteer 를 이용한 기본 방식

instagram

?__a=1 query 를 붙여서 json 타입으로 받는 방식