EN
www.dcsz.com.cn

51免费版网站nbaICCV 2025 HERMES:首个统一3D场景理解与生成的世界模型

本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。 在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。 近年来,自动驾驶技术取得了令人瞩目的进展。要让智能汽车安全高效地行驶在复杂的真实道路上,车辆必须具备两大核心能力:对当前环境的深刻理解(例如识别交通参与者、理解交通规则、推理场景语义)以及对未来场景的准确预测(如预测行人、车辆的运动,提前规避风险)。 世界模型(Driving World Model, DWM)侧重于未来场景的生成与预测,但缺乏对当前环境的细致语义理解,难以回答 “现在是什么情况?”、“驾驶员该如何决策?” 等问题。大语言模型(LLM)及视觉 - 语言模型(VLM)则在场景理解、问答和描述方面表现优异,但通常只能 “看懂”,却难以 “想象” 未来场景的演化。 然而,现实中的自动驾驶决策,恰恰需要这两种能力的深度融合。例如,车辆不仅要能描述 “前方有行人正在通过斑马线”,还要能预测 “3 秒后这位行人将到达路中央,需提前减速”。 其次,如何在一个模型内,让 “理解” 和 “生成” 这两个看似独立的任务能够相互促进,而非相互干扰?如何将强大的世界知识与前瞻性的场景预测无缝集成到一个统一的框架中,成为亟需突破的难点。 HERMES 采用 Bird’s-Eye View(BEV,鸟瞰图)作为统一的场景表达。它首先通过一个 BEV Tokenizer 将六路环视图像高效地编码并投影到一个紧凑的俯视视角表征中。这种做法不仅有效解决了 LLM 输入长度的限制,更重要的是保留了多视图图像之间的精确空间几何关系和丰富的语义细节。无论后续任务是理解还是生成,模型都能在同一套高质量的 BEV 特征空间中自由切换,为后续的统一处理奠定了坚实基础。 为了打破理解与生成之间的壁垒,HERMES 引入了世界查询(World Queries)机制。这是一组从 BEV 特征中通过自适应采样(如最大池化)提取出的、代表场景核心信息的可学习 Token。其工作流程如下: 1.知识注入:将 BEV 特征通过自适应采样(如最大池化)转化为一组表达世界知识的查询向量,再把世界查询与 BEV 特征、用户文本指令一同被送入 LLM。在 LLM 处理语言理解任务(如回答问题)的过程中,世界查询通过因果注意力机制(causal attention)吸收和编码了关于当前场景的丰富世界知识和上下文信息。 2.知识传递:经过 LLM 处理后,这些富含知识的世界查询被一个 “当前 - 未来” 连接模块(Current to Future Link)所使用。该模块通过交叉注意力将世界查询中蕴含的 “理解” 成果,有效地注入到对未来场景的预测中,引导模型生成未来多帧的 BEV 特征。 3.统一输出:最终,一个共享的渲染器(Shared Render)将当前和未来的 BEV 特征解码为 3D 点云序列,同时完成对当前场景的理解和对未来场景的生成。 在未来生成任务上,Chamfer Distance 显著优于 ViDAR,3 秒未来点云误差降低 32.4%,仅用当前帧即可实现更高精度的未来预测。与同类模型相比,HERMES 无需历史序列,推理更高效,泛化能力更强。在场景描述、视觉问答等理解任务上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然语言生成指标上超越了 OmniDrive 等理解专用模型,CIDEr 提升 8%。HERMES 与 “分离式理解 + 生成” 模型(即简单共享特征,但理解和生成模块独立)对比,生成精度提升显著,理解能力无损,充分验证了统一建模的有效性与优越性。 HERMES 不仅能够生成时序连贯且几何精确的未来点云,还能对驾驶场景的细节进行精准描述。无论是预测动态物体的移动,还是识别路边的商家,HERMES 都展现出强大的综合能力。更多可视化结果请访问项目主页。 HERMES 为自动驾驶世界模型提供了一个简洁、有效且统一的新范式。它通过利用 BEV 表征和世界查询,成功弥合了 3D 场景理解与未来生成之间的鸿沟,为开发更智能、更可靠的自动驾驶系统迈出了坚实的一步。

51免费版网站nba
51免费版网站nba不久前,梅努在个人社交媒体上发布了一组照片,引发了球迷们的猜测。照片内容包括他沉思的样子、独自训练的场景,以及在健身房里锻炼的画面。随着AI技术的不断发展,我们可以期待看到更多基于这些发现的创新应用。无论是在教育、医疗、金融还是其他领域,这种对AI学习机制的深入理解都将帮助我们设计出更加高效和可靠的AI解决方案。同时,这项研究也提醒我们,在AI能力评估和应用规划中需要保持更加细致和谨慎的态度,充分考虑模型能力与任务需求之间的匹配关系。51免费版网站nba妈妈很寂寞免费观看电视剧西瓜视频据叩叩财经统计,目前,在《国民经济行业分类》中属于太阳能发电、风力发电或水力发电的A股上市公司,算上仍处在上市审核阶段的华润新能和陕西水电自身共约有34家。诚然,5G 带来的传输速度已经十分之快,但是它的通信方式依旧好比是“在多条固定不变的车道上行驶”,那么自然就无法根据“实时路况”来“灵活变道”。而要想让传统电子芯片兼容全部频段,只能在不同频段配备对应的专用芯片。这既会增加设备复杂度和部署成本,同时在高频频段下也会面临信号噪声大和衰减严重等问题,进而严重影响传输质量。本次论文的共同通讯作者王兴军长期从事硅基光电子集成芯片与信息系统工作,此前曾在NatureNature Photonics等期刊发表过多篇论文,并在北大工作已有 16 年之久。为了扫清发展 6G 的障碍,他和团队以光电融合为切入点开展了本次研究。光,具有极高的频率和极宽带宽等优势。而所谓光电融合指的是,将电信号先转换成光信号,在光域完成高效处理之后,再转换回电信号进行传输。这样一来,就能建成一条极宽的“高速公路”。当再次面临体育馆中几万台手机同时使用的情况时,就可以让每部手机自主、实时地选择最通畅的“车道”。
20250915 🔞 51免费版网站nba博格巴的情况与法蒂类似,他也正在进行个性化的恢复训练,但尚未确定具体的复出日期。预计至少要等到10月份。这位身穿8号球衣的中场球员同样被注册参加了欧洲最高级别的赛事。这对两位球员来说都是巨大的激励。《特种兵营里被轮流的小说叫什么来着》文生图3.1在延续前代优势的基础上,进一步提升画面整体美感和场景丰富度,实现了色彩、光影与构图的全面升级,呈现出接近电影质感的视觉效果。
51免费版网站nba
📸 周红岩记者 饶波 摄
20250915 🍆 51免费版网站nba但是,《都灵体育报》报道称,莫塔对勒沃库森的帅位并不十分感兴趣,实际上他对任何工作都不是很感兴趣。据称,他希望暂时休息一段时间,并避免接手像勒沃库森这样近几个月失去动力的项目。此前,药厂主帅阿隆索加盟了皇马,而维尔茨和弗林蓬等明星球员也离开了俱乐部。尽管仍从尤文图斯领取薪水,莫塔不必急于寻找新工作,但尤文高层希望可以说服他接受新的挑战。适合夫妻晚上看的爱情电视剧推荐这就像是比较三种不同食谱培养出来的厨师的烹饪水平。HDTF数据集虽然视频质量高,但样本相对单一,就像只学会了一种菜系的厨师。Hallo3数据集在运动质量上有优势,但多样性仍然有限,就像专精几道招牌菜的厨师。而使用TalkVid训练的模型就像是接受了世界各地烹饪技艺训练的全能厨师。
51免费版网站nba
📸 刘光红记者 丁志民 摄
🖤 萨里祖的禁赛理由是“实施暴力及违背体育道德的行为”,他被指“多次用拳头击打一名倒在地上的对方球员的侧腰与背部”;而巴尔贝罗则因“积极参与由对方引发的斗殴,并挥拳击打对方球队一名球员的颈部”,同样被处以一年禁赛。《樱花PPt网站大片》
扫一扫在手机打开当前页