You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
이었습니다. 그런데 N이 100개 이상이 넘어가면 브라우저 창이 100개가 열리기 때문에 해당 컴퓨터의 메모리 문제가 발생하여, 컴퓨터가 멈추는 문제가 발생하였습니다.
그래서 2번 방식을 매번 Crawler 객체를 생성하고, 1개의 기사를 수집하고 브라우저 창을 종료하는 방법으로 전환하였습니다.
해당방식으로 전환하여, 브라우저 창 중첩현상은 발생안하였으나, 크롤링 속도가 떨어지고 python에서의 GC문제와 메모리 문제가 걱정되어 이에 대한 효율성을 탐색 중 BATCH 사이즈를 정하여 일정 갯수의 브라우저 창이 열리면, 해당 크롤러 객체를 종료하고 새 객체를 생성하는 방법을 설정하였습니다.
이에 대한 자세한 탐구가 필요합니다. 더 개선할 수 있는 방향은
단순 브라우저 창 갯수가 아닌 메모리 사용량을 측정하여 일정 메모리 사용량이 넘으면 브라우저 창 종료
이러한 점들을 모니터링 하기 위해서는 다음과 같은 요소들을 지속적으로 추적해야합니다.
서버 메모리 사용량
GC(가비지 컬렉터)
크롤링 시간(1개 단위)
입니다.
The text was updated successfully, but these errors were encountered:
Crwal4AI를 이용한 크롤링 진행 중 현재 크롤링 방식은 우선
이었습니다. 그런데 N이 100개 이상이 넘어가면 브라우저 창이 100개가 열리기 때문에 해당 컴퓨터의 메모리 문제가 발생하여, 컴퓨터가 멈추는 문제가 발생하였습니다.
그래서 2번 방식을 매번 Crawler 객체를 생성하고, 1개의 기사를 수집하고 브라우저 창을 종료하는 방법으로 전환하였습니다.
해당방식으로 전환하여, 브라우저 창 중첩현상은 발생안하였으나, 크롤링 속도가 떨어지고 python에서의 GC문제와 메모리 문제가 걱정되어 이에 대한 효율성을 탐색 중 BATCH 사이즈를 정하여 일정 갯수의 브라우저 창이 열리면, 해당 크롤러 객체를 종료하고 새 객체를 생성하는 방법을 설정하였습니다.
이에 대한 자세한 탐구가 필요합니다. 더 개선할 수 있는 방향은
이러한 점들을 모니터링 하기 위해서는 다음과 같은 요소들을 지속적으로 추적해야합니다.
입니다.
The text was updated successfully, but these errors were encountered: