集团核心技术发布大型空间模型,目的是通过AI视频空间的一致性解决问题
8月25日,在第一个技术技术日,Qunku宣布,它将正式发布新一代太空模型的最新成就,即Spatiallm 1.5和Spatialgen,SpatialGen(太空生成模型)将继续其开源战略,并逐渐向全球开发人员开放模型。作为一个侧重于识别和生成3D内部场景的模型系统,集团中央空间模型围绕三个方向建立了技术优势:真实主义的全息漫游,结构化的相互作用和内部场景的复杂处理。最近发布的时髦LM 1.5是一种基于大型语言模型培训的太空语言模型。集团核技术的首席科学家周在技术的交换中解释说,Spatiallm不会为视觉语言模型(VLM)添加新的方式,但会允许大型语言模型成为Largecala学习新的“太空语言”。这种语言可以准确描述空间str以数字文本的形式以对象的对象的插图,几何信息,交互和物理参数。通过“对话系统”,“时空” chaat,用户可以输入简单的文本说明,并自动生成3D场景的结构化脚本,这些脚本包含物理上正确的信息,从而使它们可以智能地匹配该家具。该模型还可以询问场景并回答场景的会话,并通过自然语言进行编辑。例如,在实时演示中,当输入“获取用于去客厅和餐桌的药物”的指令时,该模型不仅包括对象的对象,而且还包括自动计划行动路线的工具,表明该应用程序在Arobotic场景中的潜力。 Qunku Technology的联合创始人兼总裁Huang Xiaohuang在他的演讲中说,当前太空情报发展的主要瓶颈是缺乏互动Hree二维数据,尤其是在物理世界中。 Spaciallm 1.5它可以迅速产生许多符合要求并多样化,规划机器人道路,避免障碍和执行任务的场景,并且可以将其他托盘直接用于ING,并提供有效的方法来解决当前问题的机器人培训数据不足。与Posent to的“理解和相互作用”的时机不同,空间模型的重点是“生成和呈现”。这是一个基于扩散模型的体系结构的多ww图像生成模型,它使您可以使用基于文本的空间时间,参考图像和设计3D空格生成多维主义图像。 Qunku Technology AI产品总监Long Tiage表示,当前的常规AI视频生成工具基于2D图像序列学习,并且对3D空间和物理规则缺乏真正的了解。因此,复杂的观点或运动之间的变化通常会导致时空l逻辑错误,例如对象位置的位移,背景混乱和模型的穿透。空间产生多个视觉图像,这些图像在不同的镜头下保持一致的空间属性和物理关系,产生更多的3D高斯场景(3DG),最终在用户自由偿还的视频中。该解决方案旨在解决AIGC视频中时空一致性的当前问题。 Long Tiange透露,该公司正在开发一个录像带一代Productai,该录像带深入整合了3D容量。它计划在一年内发布。黄小线在活动中分享了中央集团技术的空间情报的战略设计。它的核是一个方向盘,其智能空间由“由空间编辑空间工具组成”组成。通过应用多种工具(例如冷房屋),您可以积累大型数据。这些数据用于ACC精心培训的模型培训。并通过强大的模型功能来反馈并改善工具的体验,从而形成一个积极的周期。截至2025年6月30日,Qunku Technology拥有超过4.41亿个3D型号和超过5亿个结构化3D空间场景。 Huang Xiaohuang是一个Technodijo开源组,是逻辑策略的重要组成部分,自2018年以来一直逐渐打开数据能力和算法。据报道,这次发布的两个模型将在Face,Github和Modai社区等平台上开放。其中,Spatialgen将在技术开始日期下载,而Spatialm 1.5将来将以“ spatiallm-chaat”的形式开放。
特殊声明:以前的内容(包括照片和视频(如果有),如果有的话)D并由网络自我媒体平台的用户发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。