웹페이지에서 원하는 데이터를 추출하여 가공하기 쉬운 상태로 바꾸는 것이다.
웹페이지에서 떠다니는 데이터(실제로는 떠다니지 않지만)는 리스트, 딕셔너리 같은 자료구조와 달라 사용자 마음대로 접근하고 자르고 추가하고 지지고 볶기가 쉽지 않다. 그렇기 때문에 이런 데이터들을 다루기 쉬운 형태로 바꿔주는 과정이 필요한데, 이 역할을 하는 함수나 프로그램을 파서(parser)라고 하며, 이 과정을 파싱(parsing)이라고 한다.
웹 크롤링을 할 때 필연적으로 만나게 되며, python에서는 beautifulSoup이라는 라이브러리를 사용하여 html 문서를 파싱한다.
'What is □?' 카테고리의 다른 글
05. 요청(Request)란 무엇인가? (1) | 2021.03.23 |
---|---|
04. MVC 패턴이란 무엇인가? (0) | 2021.03.23 |
02. 쿼리(query)란 무엇인가? (2) | 2021.03.18 |
01. 인공지능이란 무엇인가? (0) | 2020.12.17 |
00. □□란 무엇인가? (0) | 2020.12.12 |