Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

预测结果实体多且长的问题 #23

Open
qiutzh opened this issue Feb 22, 2023 · 3 comments
Open

预测结果实体多且长的问题 #23

qiutzh opened this issue Feb 22, 2023 · 3 comments

Comments

@qiutzh
Copy link

qiutzh commented Feb 22, 2023

请问作者有在其它数据集尝试GP模型吗?

有个疑惑,自己搜集了一些预料,用bert基础版预训练模型做了个训练,然后再测试集上预测时,出现了预测实体多且长的问题。

测试集一条样本:

{
        "text": "中国政府宣布2019年国防开支将比前一年增长7.5%,超过预计今年的经济增长率。第十三届全国人大第二次会议星期二(2019年3月5日)在开幕时公布的政府预算报告显示,今年的国防开支将达到11899亿元人民币,相当于大约1780亿美元。外界一般认为,中国实际的军事开支可能高出政府公开的国防预算金额。中国国防部公布的消息说,今年的国防预算将重点支持国防和军队改革,全面推动国防和军队现代化建设。中国每年一度的国防开支预告一直受到国际广泛关注。各国试图从中了解中国战略意图的变化和发展。",
        "entities": [
            {
                "start_idx": 0,
                "end_idx": 4,
                "type": "ORG",
                "entity": "中国政府"
            },
            {
                "start_idx": 6,
                "end_idx": 11,
                "type": "TIM",
                "entity": "2019年"
            },
            {
                "start_idx": 18,
                "end_idx": 20,
                "type": "NUM",
                "entity": "一年"
            },
            {
                "start_idx": 57,
                "end_idx": 66,
                "type": "TIM",
                "entity": "2019年3月5日"
            },
            {
                "start_idx": 93,
                "end_idx": 103,
                "type": "NUM",
                "entity": "11899亿元人民币"
            },
            {
                "start_idx": 109,
                "end_idx": 116,
                "type": "NUM",
                "entity": "1780亿美元"
            },
            {
                "start_idx": 124,
                "end_idx": 126,
                "type": "LOC",
                "entity": "中国"
            },
            {
                "start_idx": 149,
                "end_idx": 154,
                "type": "ORG",
                "entity": "中国国防部"
            },
            {
                "start_idx": 196,
                "end_idx": 198,
                "type": "LOC",
                "entity": "中国"
            },
            {
                "start_idx": 228,
                "end_idx": 230,
                "type": "LOC",
                "entity": "中国"
            }
        ]
}

预测结果:

{
        "text": "中国政府宣布2019年国防开支将比前一年增长7.5%,超过预计今年的经济增长率。第十三届全国人大第二次会议星期二(2019年3月5日)在开幕时公布的政府预算报告显示,今年的国防开支将达到11899亿元人民币,相当于大约1780亿美元。外界一般认为,中国实际的军事开支可能高出政府公开的国防预算金额。中国国防部公布的消息说,今年的国防预算将重点支持国防和军队改革,全面推动国防和军队现代化建设。中国每年一度的国防开支预告一直受到国际广泛关注。各国试图从中了解中国战略意图的变化和发展。",
        "pred_entities": [
            {
                "start_idx": 0,
                "end_idx": 1,
                "type": "TIM",
                "entity": ""
            },
            {
                "start_idx": 0,
                "end_idx": 10,
                "type": "TIM",
                "entity": "中国政府宣布2019"
            },
            {
                "start_idx": 0,
                "end_idx": 12,
                "type": "TIM",
                "entity": "中国政府宣布2019年国"
            },
            {
                "start_idx": 0,
                "end_idx": 24,
                "type": "TIM",
                "entity": "中国政府宣布2019年国防开支将比前一年增长7."
            },
            {
                "start_idx": 0,
                "end_idx": 34,
                "type": "TIM",
                "entity": "中国政府宣布2019年国防开支将比前一年增长7.5%,超过预计今年的"
            },
            {
                "start_idx": 0,
                "end_idx": 46,
                "type": "TIM",
                "entity": "中国政府宣布2019年国防开支将比前一年增长7.5%,超过预计今年的经济增长率。第十三届全国"
            },
            ...
            {
                "start_idx": 236,
                "end_idx": 240,
                "type": "WEA",
                "entity": "化和发展"
            },
            {
                "start_idx": 237,
                "end_idx": 240,
                "type": "WEA",
                "entity": "和发展"
            }
       ]
}

然后,分析了下代码,发现 decode_ent 这里预测实体的起止索引向量维度很高

d = np.where(pred_matrix > threshold)

print(np.array(d).shape)
# Out[4]: (3, 112304)

看起来,模型并没有很好地预测出实体的边界,自己检查过已标注的实体,index正常。想问下,作者有遇到类似情况吗?还是说GP模型在实体较长、嵌套较深、或者上下文信息较丰富的情况下就是会出现这种情况。感谢!

@zhanghanweii
Copy link

我在英文数据集实验中也发现这个问题,对于长句,整个句子都会被预测为实体

@qiutzh
Copy link
Author

qiutzh commented Mar 13, 2023

@zhanghanweii 我后来换台服务器后正常了,你也可以试下。

@wind1312
Copy link

wind1312 commented Oct 9, 2023

@zhanghanweii 我后来换台服务器后正常了,你也可以试下。

我看这个代码没有测试,只有验证,你的测试集要自己在里面添代码吗

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants