Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 人工智能AI >

benchmark 分析 PDF 下载


分享到:
时间:2026-01-25 09:59来源:http://www.java1234.com 作者:转载  侵权举报
benchmark 分析
失效链接处理
benchmark 分析 PDF 下载

 
 
相关截图:
 

主要内容:

当前数据集缺陷
 
当前多模态数据集主要分为3类:
1. ⻚⾯级:以⽂档名作为⽂件夹命名、每⼀⻚的⽂件内容以图⽚形式提供,按⻚码排序,问答对以
23
parquet形式提供
2. 块级:
a. 提供pdf⽂档源⽂件、问答对json(包含问题、答案、引⽤的块,块通过layout划分并建⽴索
引)
b. 分别提供图⽚、图表、⽂本三部分内容,三种模态分属同⼀主题的不同内容,并⽆强相关性
第⼀类:以图⽚形式提供的⻚⾯级数据集,往往内容形式丰富,且保留了模态间的布局关系,但是主要
⽤于将多模态统⼀到图⽚模态进⾏检索的rag,并不是真正的多模态
第⼆类:以pdf源⽂件+json形式提供的数据集,为了便于通过layout划分块并建⽴顺序索引,往往采⽤结
构⽐较固定的⽂档(wiki、学术论⽂),且json中以list列表依赖的块,丢失了块之间的布局、位置关系
等信息
第三类:将三种模态分开提供的数据集,⽆模态数据间的布局、语义等关联关系

 




 


------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐