diff --git a/docs/blog/index.html b/docs/blog/index.html index 1d09d08..d7261dd 100644 --- a/docs/blog/index.html +++ b/docs/blog/index.html @@ -771,8 +771,8 @@

id: 8 , href: "\/TableStructureRec\/docs\/blog\/table_rec_evaluate\/", title: "三个表格识别算法评测", - description: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.", - content: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.get(\"image:FILE\") gt = one_data.get(\"label\") pred_str, _ = table_engine(img_path) scores = teds(gt, pred_str) content.append(scores) print(f\"{img_path}\\t{scores:.5f}\") avg = sum(content) / len(content) print(f'{avg:.5f}') 4. 写在最后 link以上评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\n" + description: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.", + content: "引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。\n以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。\n因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。\nRapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型\nlineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。\nwired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。\n指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist\nfrom modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( \"table_recognition\", namespace=\"liekkas\", subset_name=\"default\", split=\"test\", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data.get(\"image:FILE\") gt = one_data.get(\"label\") pred_str, _ = table_engine(img_path) scores = teds(gt, pred_str) content.append(scores) print(f\"{img_path}\\t{scores:.5f}\") avg = sum(content) / len(content) print(f'{avg:.5f}') " } ); index.add( @@ -798,8 +798,8 @@

id: 11 , href: "\/TableStructureRec\/docs\/changelog\/", title: "更新日志", - description: "2023-11-22 update: link 发布wired_table_rec==0.0.1包 2023-11-20 update: link 发布lineless_table_rec==0.0.1包 2023-11-19 update: link 添加无线表格识别算法(LORE)的推理代码 ", - content: "2023-11-22 update: link 发布wired_table_rec==0.0.1包 2023-11-20 update: link 发布lineless_table_rec==0.0.1包 2023-11-19 update: link 添加无线表格识别算法(LORE)的推理代码 " + description: "2023-12-13 update: link 修复issue #4 发布wired_table_rec==0.0.2和lineless_table_rec==0.0.2版本 2023-11-22 update: link 发布wired_table_rec==0.0.1包 2023-11-20 update: link 发布lineless_table_rec==0.0.1包 2023-11-19 update: link 添加无线表格识别算法(LORE)的推理代码 ", + content: "2023-12-13 update: link 修复issue #4 发布wired_table_rec==0.0.2和lineless_table_rec==0.0.2版本 2023-11-22 update: link 发布wired_table_rec==0.0.1包 2023-11-20 update: link 发布lineless_table_rec==0.0.1包 2023-11-19 update: link 添加无线表格识别算法(LORE)的推理代码 " } ); index.add( diff --git a/docs/blog/index.xml b/docs/blog/index.xml index d4fa53a..3e5cb22 100644 --- a/docs/blog/index.xml +++ b/docs/blog/index.xml @@ -44,8 +44,13 @@ https://rapidai.github.io/TableStructureRec/docs/blog/table_rec_evaluate/ 引言 link为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。 +以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。 +因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。 +RapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型 +lineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。 +wired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。 指标结果 link 方法 TEDS RapidTable 0.58786 lineless_table_rec 0.50054 wired_table_rec 0.63316 评测步骤 link1. 安装评测数据集和评测工具包 link pip install table_recognition_metric pip install modelscope==1.5.2 pip install rapidocr_onnxruntime==1.3.8 2. 安装表格识别推理库 link pip install rapid_table pip install lineless_table_rec pip install wired_table_rec 3. 推理代码 link info 完整评测代码,请移步Gist -from modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset.load( "table_recognition", namespace="liekkas", subset_name="default", split="test", ) # 这里依次更换不同算法实例即可 table_engine = RapidTable() # table_engine = LinelessTableRecognition() # table_engine = WiredTableRecognition() teds = TEDS() content = [] for one_data in test_data: img_path = one_data. +from modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset. diff --git a/docs/blog/lineless_table_rec/index.html b/docs/blog/lineless_table_rec/index.html index 88d6895..638c636 100644 --- a/docs/blog/lineless_table_rec/index.html +++ b/docs/blog/lineless_table_rec/index.html @@ -854,8 +854,8 @@

参考资料 参考资料 +from modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset." /> - + +from modelscope.msdatasets import MsDataset from rapid_table import RapidTable from lineless_table_rec import LinelessTableRecognition from wired_table_rec import WiredTableRecognition from table_recognition_metric import TEDS test_data = MsDataset."/> @@ -384,7 +394,6 @@
  • 1. 安装评测数据集和评测工具包
  • 2. 安装表格识别推理库
  • 3. 推理代码
  • -
  • 4. 写在最后
  • @@ -413,7 +422,6 @@
  • 1. 安装评测数据集和评测工具包
  • 2. 安装表格识别推理库
  • 3. 推理代码
  • -
  • 4. 写在最后
  • @@ -438,6 +446,11 @@

    引言

    为了便于比较不同表格识别算法的效果差异,本篇文章基于评测工具TableRecognitionMetric和表格测试数据集liekkas/table_recognition上计算不同算法的TEDS指标。

    +

    以下评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。

    +

    因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。

    +

    RapidTable: 有英文和中文两个模型,大多都是印刷体截屏表格。具体可参见:表格识别模型

    +

    lineless_table_rec: 训练数据部分来自SciTSR与PubTabNet,训练集共45000张。这两个数据大多是来自论文截图,所以这个模型也是比较适用于论文中表格识别。

    +

    wired_table_rec: 训练数据为WTW,训练集为10970张。WTW数据组成有50%的自然场景下、30%的档案和20%的印刷体表格。所以这个模型更适合自然场景下拍照的表格识别。

    指标结果

    @@ -573,8 +586,6 @@

    3. 推理代码 4. 写在最后

    以上评测仅是基于表格测试数据集liekkas/table_recognition测试而来,不能完全代表模型效果。

    -

    因为每个模型训练数据不同,测试数据集如与训练数据相差较大,难免效果较差,请针对自身场景客观看待评测指标。

    @@ -612,9 +623,9 @@

    4. 写在最后

    Last updated - 30 Nov 2023, 09:50 +0800 + data-authdate="2023-12-13T22:23:43+0800" + title="13 Dec 2023, 22:23 +0800"> + 13 Dec 2023, 22:23 +0800 . history

    @@ -986,8 +997,8 @@

    4. 写在最后 4. 写在最后 参考资料 参考资料