NGMsoftware

NGMsoftware
로그인 회원가입
  • 매뉴얼
  • NGM 5
  • 매뉴얼

    NGM 5의 매뉴얼입니다.

    NGM 5

    NGM 5의 매뉴얼입니다.

    본 사이트의 컨텐츠는 저작권법의 보호를 받으므로 무단 복사, 게재, 배포 등을 금합니다.

    에디터 외부 API - 웹 API - 웹 스크래이퍼 (External API, Web API, Web Scraper)

    페이지 정보

    본문

    안녕하세요. 소심비형입니다. 요즘 웹 관련한 문의가 많아서 크롤링이나 스크래이퍼 또는 봇 기능을 좀 더 추가할 예정입니다. 그중에 하나가 스크래이퍼인데요. 현재 NGM은 셀레니움을 이용한 API만 제공하고 있습니다. 기능에 한계가 있어서~ 고차원적인 문제를 해결하는데 어려움이 있습니다. 물론, 하드코어하게 스크립트를 구성하면 되긴 하지만요^^;

    img.jpg

     

     

     

    웹 크롤러와 다르게 스크래이퍼는 설정한 조건에 맞게 로컬 컴퓨터로 다운로드 받을 수 있습니다. 기능은 대부분 유사하지만, 셀레니움을 사용하지 않는다는 점이 가장 큰 차이점이죠. 하지만, 셀레니움처럼 브라우저를 제어하거나 어떤 명령을 처리하지는 못합니다^^;

     

    우선 간단한 테스트를 위해 아래와 같이 새로운 스크립트를 추가합니다.

    File > 새로 만들기 > 스크립트 (단축키: Ctrl+N)

    img.png

     

     

    오른쪽 컨트롤 독 하단에서 외부 API를 클릭하세요~

    1. 웹 API 카테고리 확장
    2. 웹 스크래이퍼 클릭
    3. 드래그 앤 드롭으로 스크립트에 추가
    4. 속성 클릭
    img.png

     

     

     

    네이버의 매인 페이지를 스크랩할 예정입니다. 우선 바탕 화면에 NAVER 폴더를 하나 생성 해주세요. 그리고, 아래와 같이 속성을 채워줍니다. 네이버 주소를 입력하고 스크랩한 내용들이 저장될 폴더를 선택한 후 스크립트를 실행하세요.

    img.png

     

     

     

    바탕화면의 네이버 폴더를 열어서 저장된 내용을 확인합니다. 컨텐츠와 이미지들이 저장되어 있습니다.

    img.png

     

     

     

    컨텐츠를 열어보면 정리되지 않는 내용들을 확인할 수 있습니다. 네이버 매인 페이지에 있는 내용들을 쉽게 확인할 수 있죠.

    img.png

     

     

     

    이번에는 Html 형태로 저장되는지 확인해볼께요. 우측 속성에서 "요소 형식"을 Html로 변경하고 다시 실행하세요. 그전에 네이버 폴더의 내용을 모두 삭제해줍니다. 파일이 겹치지는 않지만, 지금은 테스트라서 쉽게 확인하기 위함입니다.

    img.png

     

     

     

    폴더를 보면 이미지는 동일하게 저장 되었을겁니다. 하지만, 컨텐츠는 html로 만들어진 것을 확인할 수 있죠? 내용을 열어보면 네이버 매인 페이지의 소스를 확인할 수 있습니다. 물론, 네이티브는 아니고 이미 가공된 소스죠.

    img.png

     

     

     

    폴더를 열어보면 아래 그림과 같이 모든 이미지들을 다운로드 받아서 정리되어 있는 것을 알 수 있습니다. 조금만 더 가공해서 결과물을 만들어 낼 수 있으면~ 특정 사이트의 내용을 가져와서 가공 처리 후 다른 사이트에 자동으로 올리는 것도 해볼 수 있을거 같네요.

    img.png

     

     

     

    웹 크롤링 또는 스크래이퍼 관련 데이타 수집 및 자동화 솔루션은 많이 있습니다. 네이버나 특정 사이트에서 이메일, 주소, 전화번호 3개 수집하는데 80~100만원 정도 비용이 들죠. 간단하게 스크랩한 후 로컬에서 데이타 검색 후 수집해도 됩니다. 만들기 나름이겠지만~ 키워드도 몇개 더 매칭해서 검색 후 사이트 스크랩하면 좀 더 효과적인 홍보가 되지 않을까 생각되네요^^

     

    속성 정보

    img.png

     

     

     기본 작업

    • 사용 여부: 이 액션의 사용 여부를 설정합니다. False로 설정하면 이 액션은 실행되지 않습니다.
    • 설명: 이 액션의 부가적인 설명을 입력합니다.
    • 실행 전 지연: 이 액션이 실행되기 전 지연 시간을 입력합니다.
    • 실행 후 지연: 이 액션이 실행된 후 지연 시간을 입력합니다.
    • 아이디: 스크립트 내에서 유니크한 아이디를 입력합니다.

     

     

    변수

    • 가져오기: 글로벌 또는 로컬 변수에 저장되어 있는 값을 이 액션의 속성 값으로 가져옵니다.
    • 추가하기: 이 액션의 속성 값을 글로벌 또는 로컬 변수에 저장합니다.

     

     

    작업

    • 스크랩 옵션: 기본 값은 All입니다. Contents는 내용만 스크랩하며, Files는 첨부된 파일이나 이미지만 스크랩합니다.
    • 요소 이름: DOM에서 찾을 엘리먼트의 이름입니다.
    • 요소 형식: DOM에서 찾을 엘리먼트의 형식입니다.
    • 웹사이트 주소: 스크랩 할 사이트의 주소를 입력하세요.
    • 인코딩: 웹 사이트의 인코딩을 선택합니다. 스크랩한 내용에서 한글이 깨지거나 알 수 없는 문자로 표시되면 이 값을 Default로 선택하세요.
    • 저장 위치: 스크랩한 데이타를 저장할 로컬 컴퓨터의 폴더를 선택하세요.
    • 컨텐츠 처리 옵션: 스크랩한 내용을 어떤 방식으로 처리할지 선택할 수 있습니다. Text와 Html이 있습니다.

     

     

    개발자에게 후원하기

    img.jpg

     

     

    추천, 구독, 홍보 꼭~ 부탁드립니다.

    여러분의 후원이 빠른 귀농을 가능하게 해줍니다~ 답답한 도시를 벗어나 귀농하고 싶은 개발자~

    감사합니다~

    • 네이버 공유하기
    • 페이스북 공유하기
    • 트위터 공유하기
    • 카카오스토리 공유하기
    추천0 비추천0

    댓글목록

    등록된 댓글이 없습니다.