에디터 웹크롤링 매크로 특정 사이트의 이메일 추출하기. (크롤러와 정규식 사용하기)
페이지 정보
본문
안녕하세요. 엔지엠소프트웨어입니다. 오늘 알아볼 내용은 웹크롤링에 대한 내용입니다. 특정 사이트에서 이메일을 수집하는 방법을 알아볼건데요. 우선~ 아래 동영상을 참고해서 엔지엠 에디터를 실행하고, 새로운 스크립트를 추가(Ctrl+N)하세요.
[ 정규식 예제 보기 ]
아래 그림과 같이 [ 웹 크롤러 ] 액션을 스크립트에 추가하세요.
- 외부 API 선택
- 웹 API 카테고리 확장
- 웹 크롤러 선택
- 더블클릭 또는 드래그로 스크립트에 추가
이메일을 추출할 사이트 주소를 입력합니다.
- 인스턴트 모드를 True로 설정하면 웹브라우저 없이 크롤링할 수 있습니다.
- 크롤링할 주소를 "https://stackoverflow.com/questions/201323/how-can-i-validate-an-email-address-using-a-regular-expression"와 같이 입력하세요.
실행하면 사이트의 모든 내용(HTML)을 가져옵니다. 이 내용을 [ 변수 ]에 저장해야 합니다.
- 함수 상자 선택
- 변수 카테고리 확장
- 변수 추가 액션 선택
- 더블클릭 또는 드래그로 스크립트에 추가
- 아이디에 "HTML" 입력
- 덮어쓰기 속성을 True로 변경
웹 크롤러 액션을 선택한 후 속성에서 크롤링한 HTML 내용을 변수에 추가 해줍니다.
- 추가하기 클릭
- 추가 버튼 클릭
- 변수 이름과 데이타 선택
- 확인 버튼 클릭
[ 정규 표현식 ] 액션을 추가한 후 아래 그림과 같이 설정 해주세요.
- 함수 상자 클릭
- 표현식 카테고리의 정규 표현식 액션 선택
- 더블클릭 또는 드래그로 스크립트에 추가
- 매치 옵션을 Matchs 선택
- 정규 표현식에 "\w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*" 입력
정규 표현식에서 이메일을 추출할 원본 데이타를 가져와야 합니다.
- 가져오기 클릭
- 추가 버튼 클릭
- 변수 이름과 데이타 선택
- 확인 버튼 클릭
스크립트를 실행하면, 예제로 입력한 사이트에서 이메일 주소를 배열 형태로 모두 가져옵니다.
간단하지만, 쉽고 강력한 기능입니다. 정규식을 이용하면 사이트 데이타에서 이메일뿐만 아니라 사이트 주소나 어떤 값들을 규칙에 맞게 추출할 수 있습니다. 물론, 정규식을 잘 다루기 위해서는 관련 지식을 습득하거나 정규 표현식 관련 책을 한번 읽어보는게 좋긴 합니다. 혹시 궁금한 내용이 있으면 커뮤니티의 질문과 답변 게시판에 질문 올려주세요^^
개발자에게 후원하기
추천, 구독, 홍보 꼭~ 부탁드립니다.
여러분의 후원이 빠른 귀농을 가능하게 해줍니다~ 답답한 도시를 벗어나 귀농하고 싶은 개발자~
감사합니다~
- 이전글매크로 스크립트에서 선택한 액션들의 실행 전 지연과 실행 후 지연 일괄 변경하는 방법. 22.04.06
- 다음글스샷 서치 후 대기하다가 해당 스샷이 이동하면 클릭하는 매크로 로직. 22.04.05
댓글목록
등록된 댓글이 없습니다.