CongressWatch

介绍

你好，政治学人 :)

这是一个出于个人学术写作目的而开发的库/框架，包含网络爬虫模块（用于爬取国会网站PDF文件）、韩文自然语言文本分析（基于现存的第三方模块）、PDF解析（使用PyMuPDF和正则表达式）、会议检索（以一种类似于内置的range函数的方式提供用户使用）等功能。所有依赖项目可以在requirements.txt中查阅。

使用这个库之前请确保安装了所有的依赖。需要注意，这个库使用的第三方韩语NLP模块需要安装JAVA运行时才能工作，因为这个模块基于JAVA开发。

虽然本框架提供了支持鼠标键盘操作的UI界面和高度封装的一键运行脚本，但对于计算机新手来说，由于需要使用命令行操作，使用体验仍然不算友好。

使用时请注意，根据韩国国会网站的声明，获取的PDF数据不应被用作商业用途；使用爬虫模块爬取数据时应该注意限制爬取频率，以免对国会网站服务器造成负担；最后，由于本库是出于个人使用目的设计的，一些配置文件以硬编码的形式写在了源文件中。不过它们对于有一定计算机使用经验的人来说很容易修改。

使用说明

参阅英文手册

备注

感谢留学期间遇到的所有人。

为由于本人的缺少情商而未能正确处理的一些同学关系/前后辈关系而郑重道歉。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ZH_README.md

ZH_README.md

CongressWatch

介绍

使用说明

备注

Files

ZH_README.md

Latest commit

History

ZH_README.md

File metadata and controls

CongressWatch

介绍

使用说明

备注