你好,政治学人 :)
这是一个出于个人学术写作目的而开发的库/框架,包含网络爬虫模块(用于爬取国会网站PDF文件)、韩文自然语言文本分析(基于现存的第三方模块)、PDF解析(使用PyMuPDF和正则表达式)、会议检索(以一种类似于内置的range函数的方式提供用户使用)等功能。所有依赖项目可以在requirements.txt中查阅。
使用这个库之前请确保安装了所有的依赖。需要注意,这个库使用的第三方韩语NLP模块需要安装JAVA运行时才能工作,因为这个模块基于JAVA开发。
虽然本框架提供了支持鼠标键盘操作的UI界面和高度封装的一键运行脚本,但对于计算机新手来说,由于需要使用命令行操作,使用体验仍然不算友好。
使用时请注意,根据韩国国会网站的声明,获取的PDF数据不应被用作商业用途;使用爬虫模块爬取数据时应该注意限制爬取频率,以免对国会网站服务器造成负担;最后,由于本库是出于个人使用目的设计的,一些配置文件以硬编码的形式写在了源文件中。不过它们对于有一定计算机使用经验的人来说很容易修改。
参阅英文手册
感谢留学期间遇到的所有人。
为由于本人的缺少情商而未能正确处理的一些同学关系/前后辈关系而郑重道歉。