NGMsoftware

NGMsoftware
로그인 회원가입
  • 매뉴얼
  • 학습
  • 매뉴얼

    학습


    기타 정규 표현식에서 특정 태그만 삭제하는 방법.

    페이지 정보

    본문

    안녕하세요. 엔지엠소프트웨어입니다. 인터넷에서 페이지를 가져오거나 개발할 때 반복되는 특정 HTML 구문을 모두 삭제해야 할 일들이 가끔 생기곤 합니다. 노가다성으로 하나하나 Delete키를 눌러가면서 처리할수도 있겠으나~ 몇천개의 페이지를 모두 이렇게 처리한다는 엄청난 시간과 비용의 낭비입니다. 특정 HTML TAG를 제거할 때 정규표현식을 사용하면 일을 수십배에서 수백배 빠르게 처리할 수 있습니다.

     

    1. 순수하게 텍스트만 추출하고 싶은 경우

    <[^>]*>?

     

    2. 특정 태그만 제거하고 싶은 경우 (ex: a tag)

    <a[^>]*>?|</a[^>]*>?

     

    2번의 경우 파이프라인(OR 조건)을 사용해서 Open Tag와 Close Tag 모두 처리하도록 되어 있습니다. 일부 태그들은 <input type="button" ... /> 와 같이 Open/Close Tag입니다. 하지만, 대부분의 HTML Tag들은 <a href=""...>내용</a>와 같이 열고 닫는 태그가 분리되어 있습니다. 2가지 모두 처리하려면 2번 내용에서 a 문자를 삭제하고 싶은 태그명으로 변경하면 됩니다.

     

    개발자에게 후원하기

    MGtdv7r.png

     

    추천, 구독, 홍보 꼭~ 부탁드립니다.

    여러분의 후원이 빠른 귀농을 가능하게 해줍니다~ 답답한 도시를 벗어나 귀농하고 싶은 개발자~

    감사합니다~

    • 네이버 공유하기
    • 페이스북 공유하기
    • 트위터 공유하기
    • 카카오스토리 공유하기
    추천0 비추천0

    댓글목록

    등록된 댓글이 없습니다.