CongressWatch

소개

안녕하세요, 정치학인 여러분!

이 라이브러리/프레임워크는 개인의 학술적 작성 목적으로 개발되었으며, 국회 웹사이트의 PDF 파일을 크롤링하는 웹 크롤러 모듈, 기존의 서드파티 모듈을 기반으로 한 한국어 자연어 텍스트 분석, PyMuPDF와 정규 표현식을 이용한 PDF 파싱, 내장된 range 함수와 유사한 방식으로 사용자에게 제공하는 회의 검색 등의 기능을 포함하고 있다.

모든 의존 프로젝트는 requirements.txt에서 확인할 수 있다.

이 라이브러리를 사용하기 전에 모든 의존성을 설치했는지 확인하라.

주의할 점은, 이 라이브러리에서 사용하는 서드파티 한국어 NLP 모듈은 JAVA 런타임이 설치되어 있어야 작동한다는 것이다. 이 모듈은 JAVA를 기반으로 개발되었다.

마우스 키보드 조작을 지원하는 UI 인터페이스와 고도로 캡슐화된 원클릭 실행 스크립트를 제공하고 있지만, 명령행 조작이 필요하기 때문에 컴퓨터 초보자에게는 사용 경험이 친숙하지 않을 수 있다.

사용시에는 한국 국회 웹사이트의 선언에 따라 얻은 PDF 데이터는 상업적 목적으로 사용되어서는 안 된다는 점, 웹 크롤러 모듈을 사용하여 데이터를 크롤링할 때는 크롤링 빈도를 제한하여 국회 웹사이트 서버에 부담을 주지 않도록 주의해야 한다는 점, 마지막으로 이 라이브러리는 개인 사용 목적으로 설계되었기 때문에 일부 구성 파일이 소스 파일에 하드 코딩되어 있다는 점에 주의하라.

그러나 이들은 일정한 컴퓨터 사용 경험이 있는 사람들에게는 쉽게 수정할 수 있다.

사용 설명

README

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

KR_README.md

KR_README.md

CongressWatch

소개

사용 설명

Files

KR_README.md

Latest commit

History

KR_README.md

File metadata and controls

CongressWatch

소개

사용 설명