- 视频语义分割:根据教学视频,自动拆解步骤,
- 视频语义描述:根据提示,结合动作,生成动作指引;
- 视频语义比对:输入实际操作视频,和教学视频进行比对,生成改进建议;
- 视频语义解构:生成结构化时序场景图,用于下游应用分析;
- 视频语义生成:根据标准操作流程,生成视频指引。
-
HawkEye(paper, code):一个基于QFormer的Video Grounding(在视频中准确定位文本描述的片段起止时间的任务)模型,有点像在视频上做二分查找,先粗粒度判断目标事件发生在视频的哪一段,然后递归分析对应的片段直到整个片段都是目标事件结束。
-
InternVL(paper, code):更大的BLIP2,包括更大的ViT作为视频编码器,QFormer改成了QLLaMa,从32个learnable query增加到96个,模型参数量更大,等等。
目前大部分QFormer变体的模型,都是从LAVIS修改而来,LAVIS的代码质量比较高,可以从这个代码库开始搭建基础框架。
- 使用BLIP2官方代码库,完整跑通BLIP2模型推理;
- 使用BLIP2官方代码库,在本地环境跑通模型训练,使用coco和
VG数据集(vg数据集加载的目录结构和BLIP2的DataLoader需要的不一样,暂时先不管了); - 修改BLIP2代码,把LLM模型换成InternLM2-1.8B,重新训练(文档记录);
- 按照ImageTextDataset形式构建IKEA Assembly数据集;
- 在BLIP2训练中加入IKEA Assembly数据集;
- 评估模型效果。
在掌握BLIP2之后,开始改造TimeChat。
- 跑通TimeChat推理;
- 参考TimeIT数据集,构造IKEA Assembly数据集;
- 使用InternLM2-1.8B模型替换LLM;
- 实现Dense Captioning Demo;
- 实现VQA Demo;
待更新