【madhur madhur matka】智谱 AI 开源视频理解模型 CogVLM2
感谢IT之家网友 USER 的智谱线索投递! IT之家 7 月 12 日消息,开源智谱 AI 宣布,视频madhur madhur matka训练了一种新的理解视频理解模型 CogVLM2-Video,并将其开源。模型 据介绍,智谱当前大多数的开源视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的视频丢失,无法准确回答与时间相关的理解问题。一些专注于时间问答数据集的模型madhur madhur matka模型过于局限于特定格式和适用领域,使得模型失去了更广泛的智谱问答能力。 智谱 AI 提出了一种基于视觉模型的开源自动时间定位数据构建方法,生成了 3 万条与时间相关的视频视频问答数据。基于这个新数据集和现有的理解开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,模型训练出 CogVLM2-Video 模型。 智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。 IT之家附相关链接: 代码:https://github.com/THUDM/CogVLM2 项目网站:https://cogvlm2-video.github.io 在线试用:http://36.103.203.44:7868/ 广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
- 最近发表
-
- Dithubaruba cultural festival celebrated in Botswana
- 长城基金:新产品募集失败,旗下15只产品净值累计下跌超30%
- 单机文字游戏:沉浸式体验的绝佳选择
- 毛利高达71% 食品切片机轻松月销140W
- Picturesque autumn scenery of Chengde Mountain Resort
- 萝卜快跑抢出租车司机饭碗引热议 周鸿祎:司机把无人车买下来 可实现三赢
- 铭匠发布 100mm F2.8 Macro 2x 微距镜头,首发价 1890 元
- 网络上最热门的免费文字游戏
- 88th Thessaloniki Int'l Fair held in Thessaloniki, Greece
- Infographic: Fruitful results of Xi's state visit to Kazakhstan
- 随机阅读
-
- China awards model teachers, education institutions as Teachers' Day nears
- 5980 米,比亚迪方程豹“豹 5”创下混动汽车到达最高海拔吉尼斯世界纪录
- 探索文字冒险游戏的深度与魅力
- 探索文字冒险游戏:开启全新旅程
- Original Lobster Festival held in U.S.
- 台积电明年涨价5% 大客户已经接收
- 探索文字单机游戏中的情感与剧情
- 10家公司参与,下一代半导体先进封装联盟“US
- Scenery of tea garden in Mu'er Mountain, C China's Hubei
- 单机文字冒险游戏:情感与剧情交织
- 毛利高达71% 食品切片机轻松月销140W
- 引领全球车用联网模块市场,Counterpoint 预估 2028 年中国乘用车联网普及率达 100%
- A股海南自贸区、保险板块周四走强
- 探索文字世界:十大必玩游戏合集
- 还搞不懂反激式转换器?一定看这一文,工作原理+电路案例设计
- 还搞不懂反激式转换器?一定看这一文,工作原理+电路案例设计
- EU's Draghi report on competitiveness calls for investment in innovation, shared debt
- 探索工业与通信领域:星坤TYPE
- 基金委管理科学部召开2024年度重点项目评审会议
- 雷军预热小米MIX Flip:小折叠不再是美丽小废物
- 搜索
-