
。其中,机器人/体现模型扮演着“中央大脑”的作用,使机器人能够在复杂而可变的环境中实现独立的研究和持续发展。因此,大型模型的研究和开发已成为建立机器人行业(尤其是整体机器人)取得非凡成功的主要联系。 9月8日,中国体现的智能公司独立变量机器人开放了其体现的墙模型的来源。 9月9日,美国人立即开设了智能公司的体力智能(PI,π),该智能也开放了其π₀.₅模型的资源。顺便说一句,中国和美国公司都在同一时间开设了自己的车型。 2025年,是Gemmodel的生态系统的开源,进入了开发阶段,其中一百个花朵开花。这种趋势使人们想起了过去几年Chatgpt代表的语言模型的进化路径:来自INI2018年社区资源的增加增加了Chatgpt-3的全球关注,在2020年5月,它持续了三年,以使语言嘲笑变得成熟。那么,机器人模型距离“ GPT-3时刻”有多远?在本期的“硅谷101”中,Hongjun邀请了自变量机器人的首席技术官王霍和体育智能研究员凯·凯。他是设置论文π₀和π₀的人。让我们谈谈今年机器人模型领域的重要成功,当今的挑战是什么,机器人在中国和美国的道路有什么区别,以及在整个方案中要实施的巨大。欢迎使用“硅谷101视频编号”的音频列,然后直接收听此播客。如果您喜欢我们的程序,建议您使用音频客户端来收听。 “硅谷101”涵盖了主要的基本音频平台(请参阅频道的末端),欢迎订阅!以下是A选举这次对话的内容:01行业的突破与概括Hongjun:您认为整个2025年机器人模型领域最重要的成功是什么? Ke Li Yiming:我已经在机器人上工作了大约七或八年。我认为在过去的两三年中,机器人模型的受欢迎程度刚刚开始爆炸。在我的初步研究中,我不使用许多大型模型和其他东西,但是我做了一些小而独特的工作。当时,我发现一组事情可以解决方案中的特定问题。虽然运作良好,但很难便宜,轻松地将它们复制到新问题。因此,在探索大型模型的路上,最大的惊喜探索是我验证了该模型的大学,因此我可以开始探索性能的概括和改进,然后我将开始讨论机器人大型模型的可能性。在机器人领域,我认为我相信这项技术大型模型的途径超过两三年前。 Wang Hao:现在有一个非常明显的现象,也就是说,它对应用程序显示了指数的影响。它背后的驱动力实际上来自通用机器人主要模型的开发和开发。在2023年之前,我们中的许多人都会专注于一项任务,并在极端上做到这一点。但是,既然我们有了一个基本模型,我们可以同时学习和执行不同的任务,这确实意味着:我们的优化目标已经改变,重点是提高所有任务中整个模型的平均成功率。它也是开发指数效应的基础。现在,我们可以开始执行复杂的长期任务(长途工作,其中包括一系列正在进行的步骤,需要机器人执行多步推理,计划和实施的复杂活动,最后完成)。这是一个令人惊讶的现象。 Hongjun:我现在将总结关键字E是对整个模型NG机器人的一般通用的探索,其余的是复杂的长期任务。请给我们一些例子来说明,例如,机器人将不做什么活动,但是在2025年会做什么?或者过去,机器人只能在某种情况下仅限于特定任务,但是现在它们可以转移到其他方案?图像来源:物理智能Ke li yiming:2024年,PI(Americal Intelligence,美国体现的情报公司)释放了π₀,当时旨在促进能力。最具代表性的例子之一是折叠衣服的任务。这项工作已经在机器人行业完成了十到二十年,许多人已经研究了这项工作。人们通常认为很难让AI玩,因为Go非常复杂,而且每个游戏都不同。在卡图纳威尔(Katunawell),在我们的日子里 - 一天的生活,折叠衣服,对人们来说似乎很简单的小任务也非常复杂。对于EXAmple,衣服上可能有两个褶皱,三倍或特定折叠的角度可能是机器人的新情况,并且需要解决太多不同的情况。同时,折叠衣服有许多不同的步骤。您需要先折叠它们,然后将它们折叠。有这样的坚持。复杂的细分和副词 - 使过去很难解决折叠衣服的工作。到2025年,我们还开始探索许多泛化方向,例如将π₀.₅模型放在移动机器人上,然后将移动机器人放在另一个且尚未在家中。它们不在模型数据集中,MAATHE模型不知道如何做出反应,然后我们观察到了如何做出反应。在此过程中,我们发现实现概括是非常有希望的。尽管机器人的性能并不完美,但它似乎显示出像人类一样的小特征,例如获取事物并将其更改为其他情况。 Hongjun:需要什么样的东西?在我的理解中,衣服是柔软的布,但是如果您选择杯子或碗,这没有什么不同吗?因此,处理问题是一个简单而不是简单的问题。例如,如果您想拿一杯小块,尽管它是完全相同的水,但它在两个不同的环境中是一般的一般,所需的技术将会有所不同。即使以后,我也告诉机器人,即使去了新房子或完全不同的杯子,也必须完成杯子。概括的完整结果需要进行此类进行性测试。图像来源:体力智能Hongjun:SOπ₀。与π₀相比,其演变在哪里?您刚刚提到它可以让它进入新房子,并且仍然适合这种环境,这是一个重点。但是,例如,任务有一些局限性吗?他们的活动是多少?哪些活动尚未移动?它的规则是什么?请简短地向所有人解释。桶E强调,整体内部将迫使我们自己收集不同的数据。但是“多样化”的数据确实并不容易定义,因此我们决定将机器人放在不同的外部房屋中进行测试。在此过程中,我们发现我们不知道在完成之前需要收集多少不同的房屋。我们需要收集和测试它们,同时也想知道:今天有助于收集3家房屋的数据吗?如果我们收集了其中30个,这将无济于事,这是否意味着无法完成这条路?幸运的是,在我们收集了许多不同的数据之后,我们训练的模型最终发现了调节验证时验证能力的能力。也就是说,在某些新环境中的性能比以往任何时候都更好。当然,新的新环境不是很好。今天仍然有一些局限性,但是每个人都在慢慢感到和探索。将来实施绩效的房间仍有许多可改善的房间。 Hongjun:怎么了您认为在开发机器人模型的过程中,总体上最困难的部分?例如,这是因为数据量相对较小还是算法问题? Wang Hao:困难之一是对物理世界产生长期影响的稳定性(稳定性的翻译是指可以承受外部压力并影响其原始状态的事物的本质),例如环境和光线造成的一些视觉错误。尽管可以通过使用更好的传感器,更强大的计算能力以及更好地开发模型来帮助您合成和增强数据,但这些长期效果可以缓解,但真正的困难是许多实时可能性,我们无法预测所有可能的角案例(侧面和角案例)。图像来源:自变量机器人,因此无法事先学习这些情况。例如,当机器人执行任务时,桌布可能会有小皱纹,杯子可能不稳定,一个d透明的对象可能反映了干扰相机等的光。人们可以立即进行直觉并丰富富裕的经验,可以立即适应这些小小的物理变化,但是由于算法完全依赖于数据驱动的数据,因此在面对这些新挑战时,AI模型可能无法正确完成。另一个困难是在长期活动中,马拉明(Maramin)小小的身体障碍会导致各种小错误,这会像滚雪球一样加强,而尾巴结束时的错误会直接导致工作失败。因此,我们需要解决的是如何使模型求解数据中无法包含的不同角色案例。它的主要部分是建立一个模型基础,该模型基础可以理解物理理解和物理直觉,以便模型可以具有空间理解和推理能力。因此,这个主要问题是我们应该将真实的机器人数据,人类视频数据等组合在一起,以便在SIZ中数据更大E,更丰富的资源,更高质量和更多样化,因此机器人可以从本研究过程中了解物理定律。但是,与现实世界相互作用的高kattack的数据目前有些困难。获取这些数据并不意味着您只能在世界上真正愤怒地收集它。这件事比想象的要复杂。这不仅是数据量的问题,而且是数据工程和数据管道的问题,例如如何降低我们的数据提取成本。 Ke Li Yiming:我也认为有很多困难,而不仅仅是一两个困难。我认为Wang Hao刚才提到的问题是困难之一。从研究的角度来看,我认为很难尝试机器人模型的性能。人们经常看到一家公司开设了一种新的大型语言模型,并已成为特定列表中的第一名。在机器人世界中,近几十年来,无法制作这样的机器列表世界。没有办法告诉你它非常客观,绝对和重复 - 重复:在什么情况下,性能模型的性能要比模型B更好。制作此列表的困难是模型。它可以在某些地方表现良好,在其他地方不好。您需要包括几种不同的情况?如果您想有一些角案件,那将是无尽的。同时,如果您想列出真实的机器列表,则还应考虑维护,详细信息,如果模型性能会影响真实机器的性能等。因此,当整个机器人行业发表论文时,它通常会依赖于自己,既可以作为set,又作为审查官员。 “我现在已经制作了一系列算法,我们认为MAS比这项工作中的一些以前的方法都很棒。”缺乏统一的检查机制减慢了智能领域的发展,因为您很难认识到哪种更好,模型A和模型B。完美的情况是,高标记模型的作用清晰,良好,而现实世界是每个人的天才。我知道,在探索使用模拟器或第三方检查(例如戒指般的竞争)中应该有很多人。 Nagpakit具有许多能力,例如踢足球,赛车和执行一些特定的任务。如何判断机器人,其技术是好还是坏?你能从这些演示中分辨吗? Wang Hao:我认为这很难。每个人在我们体现的领域中都会感到困难和痛苦。很难拥有一个单一的审核标准,该标准可以阻止每个人审查较便宜和公平的模型。最好的评论是去现实世界进行检查,但是我们很难建立一个公平的竞争领域,因此这是一个很难的地方,但我认为仍然有几种检查方法。例如,我们有一批开放资源模型。您可以在学习T上学习相同任务时查看不同模型所需的数据量继承人自己的机器人本体论。可以评估总体上的能力和推理。此外,对于不同的机器人公司,它可能是理性和公平的:我们将其机器人应用于特定情况,以查看不同的模型的性能。因为在现实世界中使用时,它表明差异,概括或环境是非常随机的,因此最好反映您的模型能力。 02数据和硬件挑战瓶颈Hongjun:仅提到的贫困,Kay提到了第一点,其他两个点是什么?即使在2025年的今天,它仍然永远无法达到鱼类和熊的爪子。如果您希望数据质量很高,则需要仔细设计和清洁。例如,大型语言模型中的培训也对数据质量非常敏感。我们使用机器人进行的数据是由我们自己收集的,然后清洁的,每个细节都应到位。当您需要追求细节时,很难起诉更高的音量。因此,问题在于我们需要更多,良好和快速的数据来使我们的模型更好。第三个困难是保持真实的机器。那些与机器人一起工作的人,尤其是那些试图制造真正的机器人的人应该热衷于这个行业,但是我认为维护真正的机器人硬件是非常令人鼓舞的,尤其是许多新手。当我看到他们开始学习机器人时,我会看到没有更好的机器人可以手工使用。它可能不像某些纯软件行业。 Maaryou可以下载一些代码并直接运行机器人。直到今天,仍然没有每个人都认可并愿意拥抱的硬件平台。无论硬件是什么样子,行业仍在争论和探索。我认为这些条件为我们的研究和领域提供了一些门槛。开源机器人数据集,照片来源:打开x- embodiment hongjun:是的,当涉及到它时,我会考虑的,有时我会与机器人研究人员聚集每个人都问我白天在做什么,那就是我一天什么都没做。 ke我当时还很年轻,想到了:哦,为什么整个项目takeobot?当我对自己做这件事时,我发现我每天都在尖叫。 Hongjun:我认为数据确实很重要。我还知道,您的自变量机器人模型Wang Hao积累了数千个多模式数据。好吧,您刚刚提到了π模型。您说您需要收集此高质量数据,然后您需要自己收集和清洁数据。 KE由于大语模型的成功,一切都对数据质量更敏感。 Hongjun:您是自己收集数据还是在第三方公司收集数据? Ke Li Yiming:我们自己收集了很多数据。 Hongjun:业内是否有一些特别公司的第三方提供数据? Ke Li Yiming:我认识一些朋友。他们创立了自己的业务,为Robo提供一些真实的机器数据TS,但这不是我们当前研究的重点。 Hongjun:您认为多少数据可以生成一个很棒的大型模型? ke我曾经和我的朋友聊天,如果某人的生活是100年,那么我们几乎可以计算出100万小时。现在,在我的公共信息中,我似乎没有看到有人在做100万小时的数据。因此,我认为,当我们收到一百万小时的数据等于一个人的身体经历时,我们可以在以后开始探索。如果机器人将来可以在现实世界中广泛部署的机器人,它可以收集100万小时的数据,这只有几天。这也是一些朋友的抱怨,他们为他们的行为感到自豪,因为他们为自己的行为感到自豪:我想今天做这项工作,给我400万小时的数据,明天收集并清洁下一天的第二天。我说,我已经在机器人上工作了很多年,但似乎并没有花费400万。图像来源:物理智能E Hongjun:为什么您的判断100万小时?我们以前曾说过,当人们成为领域的顶级学者和专家时,有10,000小时的规则。除了我的宝宝学会吃饭的事实外,他不确定他什么时候还很年轻,但是他学会了这一天。但是,为什么Nanganne的机器人比人训练灵活性的数据量要大? Ke Li Yiming:我有一些粗略的想法。当我们独自研究时,有一个名为跨对线迁移的焦点中心,希望在不同形状和类别的机器人中收集的数据可以应用于其他机器人,以便可以更快地学习任务。人们可以在基因中做到这一点,而其他身体有一些联系。毕竟,人们有一个非常有用的感知,这就是眼睛。现在,没有相机敢于针对人眼和我们的关节。这些物理和自然的事物是人类行动的基础。我个人认为可以使用一些算法优势来克服Hardware缺点。但是罗马不是有一天,我们不能指望机器人像婴儿一样迅速学习。如果机器人想快速学习新任务,那么您仍然需要积累很多。 Wang Hao现在提到了,我在PI中看到的是,在特定机器人中收集的某些任务数据将帮助其他任务更好,因此新任务可能不需要太多数据。 Wang Hao:实际上,与人相比,我认为机器人仍然不公平。主要的是人们确实拥有“预训练”。在整个生物世界的巨大演变过程中,有两个非常基本的要点:首先,在进化过程中,人们积累了许多以前经过验证的对象,例如了解世俗的接触和应对物理世界的技术,实际上已经在基因中撰写了;另一方面,人们确实在改变自己的硬件,整个生物世界就是这样。如果您用“聪明”来解决问题,并尝试给我们e“硬件”来解决它们,因此许多生物会改变一些结构,例如大肠杆菌,这些结构不必眼睛。只要您对化学和温度敏感性有一定的了解,就可以适应周围环境。我们现在做事,这是为了帮助机器人制造其实践前模型。尽管它似乎涵盖了人类进化的数百万年方式,但确实有所不同。首先是机器人可以执行大规模复制,并且各种机器人可以分享他们的经验,以便我们可以快速开发一个预培训的机器人模型,以使MAGIT能够看到和理解物理世界。当然,这个过程使机器人更熟悉其身体。正如凯今天所说,“跨在线概括”,我们制造了不同的机器人(模型),以适合不同的身体,并让他们看到身体的差异。这很重要。其次,在人类研究中,所谓的10,000小时仍然有很多变化理论。人们在一段时间内没有专门学习这项工作,他们将在完成研究后知道下一个新任务。当您开始教宝宝做某事,例如获得某些事情,它可能还不够准确,并且一个月以后不理会它,您会知道他不会花太多时间研究获得某些东西的任务,但他已经学会了。它还反映了人们从学习过程中学习并联系环境,这实际上是并行研究中的多任务。它可以从各种活动中意识到基本的标准物理结构,这将有助于减少学习新任务时所需的数据量。因此,现在我们在练习机器人时也这样做。我们使用尽可能不同的数据来涵盖开发大型数据系统的所有类型的能力,开发机器人功能可以减少学习新任务时所需的数据量。所以我只是说机器人需要数百万个数据小时。解决两个问题的核心。首先是长期以来涵盖人类进化的前训练过程。我们需要使用不同的数据来帮助机器人发展此基本能力。第二是,在学习新活动时,我们还必须在研究旧活动中使用这种一般能力,以便可以将其推广到新的功能中。因此,就数据和时间而言,我们不能完全将自己与人进行比较,但是我认为这个研究过程以及背后看到的规则可能是相同的。图像来源:自变量机器人 - 一个体现智能基本模型墙-Oss Hongjun的开源:我想知道您在现实世界中收集了多少数据?练习已经存在的AirMbod模型时,数据成本是多少?或数据的效果如何? KE虽然π₀出版了,但PI仍然是一个很年轻的开始。我认为这确实显示了两件事:第一个是该POI收集的数据量NT当时确实很大,从那时起,数据已添加到它上,数据的成本和数据值实时变化。当Google Research Institute启动探索时,会有很多努力来接收这些数据,但是后来,逐渐获得经验,收集PI或其他公司变得更加容易,并且应控制和降低成本。 Hongjun:那么您今天使用大量数据综合吗?我知道行业中的许多人会使用合成数据。 Google几周前发布了Genie 3 World Model。我已经听到了两所学校的两种不同意见:一所学校认为Genie 3对机器人来说是值得的,因为该模型中该模型的数据很有用,但是其他学校会认为数据的质量仍然不够。图像来源:Google Keli Yiming:我认为它可以分为两个问题,一个是我们之前所做的,另一个是整个领域的好处。必须那里随后的论文探讨了π₀的实践中的一些培训。注意到,当π₀.₅。我们将一些数据引入网络。我不知道它是否被严格视为合成数据,但我希望通过引入一些不同的外部知识来给予它一种一般和联合的感觉,以直接告诉机器人该动作应该是什么。我认为,关于该领域的合成论文的角色是什么明确的结论。现在,有些人认为,如果可以产生低成本,控制和对机器人有用的大量数据可能会开发出来,但是当今最重要的困难是如何创建这些数据以及如何证明其有用。这仍然是一个相对裁切的研究问题。 Wang Hao:顶级机器人公司的数据量现在具有真正的物理世界,限制可以集中在数千到成千上万。但是,与GPT-4培训模型相比,数据量IS更小。除了使用机器人最重要的现实世界数据和数据外,Gagamwe还具有其他一些数据,但是每种类型的数据都应该有自己的问题。机器人的真实数据非常昂贵。由于机器人硬件站点,操作员的收集速度等,每个方法都有许多改进方法。他们不仅可以依靠真正的机器人身体,而且还可以制造一些便宜的身体,甚至不必做一个完整的身体。只能收集一些可穿戴的传感器设备。实际上,我们还使用了许多生成模型来产生合成数据,但是合成数据在很大程度上减轻了视觉和现实之间的分布差异。很难通过物理接触过程产生数据,这种类型的数据仍需要在现实世界中收集。还有另一种类型的数据,这是Ishan Video Data。这个量表是压倒性的,有很多差异,而且成本相对较低。我们也帮助许多人Panies探索它。但是,仍然很难依靠这些数据来帮助机器人生成动作水平。浮雕模型现在从视频数据中从作用中学到了什么。我们已经从人类视频中找到了一些先进的语义理解和计划工作。但是,通过视频而不是语言来汲取这种计划。与Genie 3一起,我认为这是一种很好的工作方式。它从互联网和游戏环境中获得了大量的高质量数据。因此,通过视频生成,您可以对动作进行一些控制,这是将来的好方向。尽管与Kin事实相比,这种环境相对简化,但仍可以用作培训环境来帮助您进行此类联系。因此,我们仍然与数据有关。我认为每个公司对数据的投资可能有所不同。这也取决于整个公司的整体优势,例如运营功能和硬件级别。不同的数据使用计划将使您的数据不同。与美国相比,硬件成本和人工成本可能有很大差异。即使在同一地区,操作能力,数据过滤,清洁,发电和分配,在不同情况下的数据收集功能,情况快速构建和恢复功能也会影响数据成本。 Hongjun:因此,您公司的数据成本与其他更多机器人公司相媲美。估计水平是多少? Wang Hao:这很难在不同公司之间进行比较,因为每个人对数据质量和差异的要求都可能有所不同。但是对于我们公司而言,数据应占整体研发成本的很大比例。图像来源:独立变量机器人Hongjun:今年9月8日,您的开放式开源模型启动了。请简要介绍您的开放资源模型是什么?其行业的特征是什么? Wang Hao:我们继续精神OF开放资源还吸收了许多经验,因此它使用了大约数千个小时的现实数据来训练具体的基本模型。我们的概述是一个概述,因此可以用来牢记链条或手势。 Pinalanwe基于训练有素的基本视觉语言模型,使其具有更强的视觉,空间推理和多语言随访的能力,与此同时,动作产生的准确性也相对较高。这就是我们注意到的。当前,仍然缺乏体现的开源模型。我们还希望此时,开放资源可以为具体的智能行业提供更好的补充,以便每个人都可以更好地使用我们的基本模型来完成一些长期任务并解决一些复杂的任务。为了解决这些长期任务,我们需要更好的语言合规性,更好的空间和推理推理。我们还希望我们的端到端推理,计划和行动实施模型可以发挥Thea纸和社区用途。 Hongjun:那么您的模型的重点是什么?我认为行业中模型参与者的方向是不同的。例如,有些人专注于精细的操作,因为Google非常擅长折纸动作,而PI希望在一般将军中具有更强的能力。如果您在句子中总结了您的优势,您认为机器人领域最关心的观点是什么? Wang Hao:我们最关心的是机器人的总将军和解决长期活动的能力。解决长期任务意味着它应该具有相对强大的能力,因为解决任何长期任务都将处理不断变化的情况。这项工作可能会遇到不同的范围,并且以前从未见过各种操作对象,因此它需要具有强大的一般普通。 Hongjun:例如,对于长期而复杂的问题,请给我一个例子。图像来源:自变量机器人 - 开放资源它的宝石是墙壁-oss王霍的智能基本模型:实际上,实际上,我们在任何情况下都使用机器人,这是漫长而复杂的。例如,如果我想完全清洁餐桌,那么这是一项漫长而复杂的任务,因为您需要操作很多类型的事情:您可以进行困难的操作,例如桌子件;还有一些需要操作的液体,例如在固定区域倒入食物和液体的残留物;您还可以对许多不规则事物进行处理,例如垃圾和残留物;需要处理许多灵活的物品,例如擦拭桌子,折叠毛巾等;可以将不同的东西放置在不同的位置,您应该更加谨慎处理可能的溢出或其他情况。因此,在清洁餐桌的任务中,它不会执行固定订单。首先要做什么,以后要做什么都散布在漫长的任务中。很难t让人们分开每个任务的边界。这种类型的任务应由端到端模型独立决定并实时计划,并且整个任务已完全完成。 Hongjun:然后在您的实验室中,评估机器人活动的完成时,实际培训是什么样的培训? Wang Hao:我们会错过培训的其他情况,主要是基于家庭情况,因为家庭场景确实包含了需要解决情报的所有任务。就像清洁整个餐桌,餐桌装饰,清洁整个浴室以及清洁房间一样,这些都是我们的培训任务。我们确实看到,当这些机器人管理闭环活动时,它们显示出对操作能力和一般能力的改进,这确实提高了我们的信心。我们还希望使用独立变量的开放模型,让每个人在求解GE时看到当前基本模型中发现的功能诸如漫长的活动之类的情况。 03模型体系结构和技术路径Hongjun我注意到,如果是Pi或Independientnt变量,它们都会产生开放的资源模型。您为什么要进行开放资源?在整个生态系统中,开放资源的好处是什么?我认为Ke Li Yiming可以在行业和社区中分享该模型,这将帮助每个人快速开始。这也可能是机器人模型研究的障碍物进入的伪装减少。实际上,在公司内部,开放资源也是一个过程(研发),它将决定开放资源,然后绘制所有内容以重塑新发表的研究,然后进行测试,然后与一些社区开发人员进行交谈,以查看他们是否可以运行。这并不是一件简单的工作,但是我仍然喜欢看到我们的模型在某些机器人不期望的某些机器人上运行,而其他人则可以使用我们的模型来创建许多不同的实验。现在每个人都很乐意开放资源,我NK是一个很好的气氛。图像来源:X.com Hongjun:我看到您喜欢机器人。 Wang Hao:我一直觉得开放资源是一件非常重要的事情。开放资源意味着我们可以站在巨人的肩膀上,并继续前进。我们可以根据现有成就做出更多改进,社区开发人员的评论也将有助于开放资源公司。公司的开放资源可以从中学习,然后考虑这条技术途径。普通的大学或小型企业可能无法制作基本模型,但是如果它们可以使用这些基本资源模型,则可以制作应用程序,在各个方向上使用它们,并丰富整个生态系统,这也是非常重要的事情。我认为AI研究与以前的大型模型不同。过去,我们已经看到对AI和大型模型的研究非常离散。在建立社区之前,只有两个或三个人正在研究。所有疯狂研究算法M,更优先的论文出版,目的是执行技术计划。但是,在社区和整个开放资源系统中,所有人的关心是如何在工程系统下为该项目奠定坚实的基础并使社区更加繁荣?个人如何为社区做出贡献?每个人都从这些事物中依靠荣誉。它还将激发开放资源技术的持续发展。因此,我认为开放资源是一件很棒的事情,您可以从中学习新事物,您还可以看到您的事情可以帮助他人。 Hongjun:每个人都认为模型公司今天判断模型质量的主要原因吗?现在,我们不仅要与它们收集的数据的质量竞争,而且在模型级别上也有许多不同的技术途径,例如我们使用高频控制,还是使用两个系统体系结构2+System 1?您能谈谈模型LA上的不同技术途径吗是的,您选择的方式?图像来源:自变量机器人开放源体现的智能基本模型Wall-oss Wang Hao:从独立变量机器人公司的角度来看,我们非常坚信,建立了数据驱动的构建模型的方法。我们打开了墙壁模型资源,该资源也基于此体系结构构建。无论您是语言,视觉还是行动,有多少方式,都必须在同一空间中代表和对齐。铺设是他们的不必要因素,因此我们应该避免尽可能多地由人类分层引起的信息。但是,另一方面,如果您已经训练了端到端,则可以制定模型,并且可以实现数千亿或数十亿美元的矩阵模型。如果我真的想使用它该怎么办?将如此大的模型部署到最后是不可能的,因此,当ClingingWiran时,我们认为模型可以分开,并且较慢的TA可以将SK进程放置在云中以进行处理,更快的工作过程可以放在物理侧,然后梯度后通路更新整个系统参数。这个过程非常重要。 Hongjun:我们说,两层建筑模型与人脑的大脑和小脑非常相似。例如,一层负责理解和计划,另一层负责高频输出控制,例如设法理解和决策的大脑以及管理运动控制的小脑。您为什么不使用架构? Wang Hao:我们是端到端的培训。很难将某些参数完全划分为模型中的系统2,例如将某些系统分为快速系统,直观系统等,但是我们可以训练一个庞大的端到端模型,该模型可以具有非常强大的通用能力,从而允许体现的通用能力包括在下面地位,推理和产生的行动。但是,部署时,您确实可以有很多方法,例如约会和压缩良好行动的零件,然后将零件放置在云中等方面的零件。那你是怎么做凯的?图像来源:物理智能Ke Li Yiming:我们仍然愿意思考。我们认为机器人模型还没有像GPT-2那样到达。我们期待尽快达到此水平,但是在现有模型和性能中仍然存在一些差距。数据驱动的算法是我们最关心的内容,但是我们如何设计这种特定的算法?该模型的体系结构如下所示?如何设计硬件系统?您如何收集数据?我认为一切仍然用于数据驱动的服务。 Hongjun:因此,它分开了两个部分的推理和控制,还是这是E端到端解决方案完全集成了?您认为这确实不是当今最重要的问题。也许这些路径还可以。我觉得今天机器人模型的整个领域的技术道路似乎是团结的。 Ke Li Yiming:我认为这句话非常有趣。最近,当我与大三级共进晚餐时,我仍然谈论它,因为大约三到四年前,我们会感到整个行业都发生了变化。学术界以前更加分散,而关注的方向,思想,算法和问题也不同。今天,自视觉语言动作模型诞生以来,它已经变得流行,许多人都遵循,使我感到更多的方面已经开始转变。 Hongjun:您认为场景在哪些方面表示?从哪些方向是相同的方向?这是什么意思? Ke li yiming:其中之一是对模仿的研究。我从2018年开始进行模仿研究。当时,几乎没有行业研究,几乎没有研究要遵循。那时,我认为这是一个不那么主流或流行的想法。我在2018年看到了这一波士顿的跳跃。毕竟,即使是直接用于模仿这项研究的人形机器人跳跃,这可能是一个相对困难的挑战。该行业中的许多人会说,当他们在1960年开玩笑时,我们的机器人将人们送到月球,机器人正前往火星。这是成功的机器人的方法,它已成为火箭纪律。只有机器人研究人员从未学会过如何成功并仍然与这里的机器人一起工作。虽然这是个玩笑,但也表明,该行业中有一系列接力探索,包括探索2000年左右的自动驾驶,以及背后的人形机器人,以及由波士顿动力学领导的力量。在2000年代初期,有一个真正的柳树车库,这是美国学术社区的一个相对流行和流行的开端。当时他们晋升了机器人称为PR2,也被认为是移动祖先,但不是类人形机器人。因此,从过去,我认为所有研究的方向都不同。有些人制造汽车,有些人牵手,这在机器人行业到处都分散了。如今,由于大型模型的流行,它强调了模型的可用性。许多人开始怀疑他们是否可以结合这些东西。这是一次非常友好的相遇。柳树车库,图像来源:商业内部人士Hongjun:我看到,从企业家的角度来看,在行业中,人之间有很多差异,例如脚步机器人,人类机器人在这里单独行走。还有一个轮胎机器人,您会注意到手跑,只需用轮子滚动行走。有很多公司也想知道,我可以有一个可以同时工作的机器人吗?因为许多机器人可以具有上半身或下半身,但通常每个人都可能想mAKE模型更大,功能更广泛。 Ke Li Yiming:我认为同样的事情是,许多使用不同形式的机器的人会使用不同的方法。现在一切都很开放,会问我们是否应该尝试大型视觉语言模型。您提到的上半身和下半身的形状确实是这样做的。 Hongjun:Kay认为整个机器人模型甚至都不处于GPT-2级别。您如何看待Wang Hao? Wang Hao:我认为它已经达到了GPT-2水平。在此类比中,GPT-1通常是该概念的证明,并且可以通过预培训和数据增加一些任务。但是在GPT-2时,我们开始验证其规模的力量。通过显着增加模型参数和培训数据,我们可以显示量表带来的能力的提高。也许如果我们制造更大的尺寸,我们可以达到GPT-3级别,每个人都会看到许多能力出现,所以我认为现在正处于GPT-2的这个阶段。我们通常知道规模是唯一的可靠路径,因此在此阶段,我们必须在不停止,改善模型的大小并开发支持体现智能的各种基础架构的情况下积累数据。因此,有点旨在说类人机器人目前处于GPT-2阶段。图像来源:自变量机器人 - 开源是体现的智能基本型号wall-ok hongjun:那么您认为机器人字段需要到指定的GPT-3时刻需要多长时间? Wang Hao:现在,我们正在谈论机器人领域的GPT-2到GPT-3。从语言模型的角度来看,存在差异。当我们使用语言模型时,我们不知道该路线是否可以完成,并且中间有许多分散的探索和收敛过程。现在,我们清楚地知道并看到改进带来了这个规模,因此对我们来说,路径和目标更清晰,更独特,因此我想我们在1到2年内达到GPT-3水平。 Hongjun:需要1到2年o非常快。我注意到,在美国,当我们谈论机器人时,我们都想做这种通用机器人,然后用大型模型进行。如果是自主驾驶的无聊,美国希望进行L4和L5水平的自主驾驶。但是,当我们看到中国发展的方向时,我会感到很多小而独特的商业路线。例如,当中国公司进行自动驾驶时,他们认为他们可以在公园或码头中实施这种情况来创建一个非常contract的小型和独特的行业。您如何看待这些机器人的两种方式,最终结果将是差异?哪个路径位于? Wang Hao:我认为应该与他们对中国和美国的好处相结合,以查看这个问题。实际上,无论费用如何,美国目前的道路都是自上而下的。他们将优先制作附近AGI的超大型号。在拥有这个基础之后,他们生病想想如何做。这也是因为美国具有计算能力的优势。顶级芯片和最大的计算功率簇都在美国,因此该路径更倾向于使用无尽的计算能力来探索功能的边界。但是中国对芯片有一些限制,因此它迫使中国公司研究和思考如何通过有限的计算强度来提高效率。但是,我不同意中国公司现在采取一条小而准确的技术途径。中国确实在移动中最大的情况适用于全球互联网生态。这种情况的优势和中国拥有完整的工业连锁店Tohardware领域,这与美国不可媲美。实际上,中国有许多领先的研究机构和出色的创业公司,他们从第一原则的角度考虑了很多思考,并了解法律规模。这确实是AGI的唯一方法。我们坚信,应该有一个强大而强大的基本模型来在不同的领域使用此基本模型,并可以更好地部署它。但是,此过程无法逆转。它应该有一个庞大而庞大的基础,要有一个小小的精致发展。就实施道路而言,中国确实就像是上下双轨并行性的结合。一方面,请考虑尽可能多的场景,尤其是可以向我们带来的一般情况,同时它将迭代我们自己的一般基本模型功能,以便机器人可以更快地在现实世界中获得更好的反馈,帮助每个人都实现企业封闭的环路并开始开发数据飞行。图像来源:Hongjun,一个自变量机器人:那么您个人想创建一个通用模型吗? Wang Hao:是的,我们一定会制作一般模型,这非常重要。 Ke li yiming:我很瘦双方的生态环境已经有许多历史因素。一方面,国内经济正在迅速发展,并拥有足够的经验。有许多业务成功会导致公司的安全和公司的商业化,这激发了国内企业家从解决NG问题并解决用户需求的开始。因此,许多人会加深他们的领域。以前,我看到了一个中国除草机器人在互联网上“杀死”这个欧美家庭。看到这一点后,我觉得我推荐给我的朋友。我认为中国公司非常擅长进行这样的商业化。同时,中国制造业也存在,机器人对硬件的需求很大。在此阶段,与商业需求的国内硬件开发相比,没有什么可以将其比较了。因此,在当前的国内生态系统中,许多人在进行其他探索的同时确保业务成功的同时开展业务。我说b因此,我很幸运能成为我毕业的人,因为如果我两年前毕业(也许我无法获得)当时的许多人(提早毕业)。)朋友,他们进行了出色的机器人研究,但是他们改变了职业并转向了大型语言模型和加强研究。制作机器人将帮助您锻炼技能,但这不是机器人本身。与其说许多美国公司制造了大型和一般的模型,不如说这一时期是为了创造一群相信这一途径在2024年左右出现的人们的人。这个同步因素也与整个行业的OpenAI的理解和震惊有关。直到今天,当我加入PI时,我与他们谈了是否要这样做。我问:您可以成为机器人类型的人吗?如果您想成为一个人,您是否必须燃烧很多钱?如何沿着道路行走? pawhat进行商业化?该公司如何生存?从商业角度来看,这还不清楚,所以我暗示hest认为这些公司真的很少见。有时间可以建立,有人可以相信他们可以做事。在这样的公司出现之前,实际上,美国行业中有许多机器应用公司。其中,其中之一可以更受欢迎,并且与我们公司的长期关系是协变量的机器人技术,该机器人是由伯克利一位非常著名的教授创立的。这些人的交易者经验激发了后来来的人。由于外界的眼睛,协变量深深地参与了商业点,因此它是商业化的,但不如一般。我们公司的最大目标是要驱动压力和数据驱动,因此我们谨慎地避免进行一些短期业务项目。有这样的历史因素导致公司当前的生态系统。图像来源:协变量机器人学:我知道协变量实际上更多的是敏捷而不是研究模型。当然,这可能是因为SE他们在物流方面太成功了,因此每个人都记得自己的其他外观。 Hongjun:他们还研究了通用解决方案和模型水平解决方案吗? Ke Li Yiming:我相信他们应该以这种方式探索第一天,因为当他们开始这样做时,没人知道研究和机器人应用程序可以做什么,因此他们应该进行一些探索。如今,许多公司和研究人员都受到他们的经验的启发,并选择走上当前的道路。 04商业和登陆前景Hongjun:我认为,当每个人都在研究机器人时,他们希望机器人能帮助每个人做一些家务劳动,例如折叠板,折叠衣服和在Washside的装满碗。您是否认为将来会有这样的家用机器人来帮助我们做家务?您认为您可以拥有这样的通用机器人多长时间? Wang Hao:做家务似乎很简单,但我认为它可以用作都灵测试的理想机器人。因为这个过程包含了所有精美的MovemeGEM智能机器人领域的NT,例如切蔬菜,需要适当控制力;有很多理解需要处理一些脆弱的事情。还有一些长期计划,例如阅读食谱以烹饪,阅读说明以使用特定工具,并处理各种意外情况等,包括所有机器人的挑战,包括所有机器人的挑战。为了彻底达到此水平,我们仍然必须采取步骤。我认为在两三年的时间里,我们可以让机器人在半结构化的环境中做一些简单的事情,例如仅限于厨房,帮助您制作一些简单的菜肴,洗碗等。我认为这还可以,但是如果我们想在一个完全开放的厨房里做所有事情,我认为这将花费近五年的时间。图像来源:自变量机器人Hongjun:将近五年的时间,我可以在厨房做饭和清洗机器人吗? Wang Hao:是的,我认为可以实现这一目标。但是那时有仍然有许多人都应该忍受的情况。例如,即使各种活动中机器人的成功率相对较高,但这不是100%,而且仍然存在错误。因此,如果我们允许机器人与人合作并从人那里得到帮助,我认为我们可以进入家庭5年。我现在有点乐观,因为我认为机器人领域的发展是正确的道路。有了诸如规模定律之类的快节奏法律,我在人类的历史演变中感到幸运,因为每个人都可以告诉我们如何做到这一点:只要您投资了折衷,迭代模型体系结构的力量和数据,并提高机械能力,您就可以看到裸眼的机器人的改善。因此,即使今天有很多问题,这使我们感到高兴,如果您将其查看5年,它也可以解决,并且该模型肯定可以越过门槛并进入新阶段,因此我预测5年的时间非常合理。此外,大约五年的时间,我们需要更加谨慎,因为机器人不允许光资产快速重复像纯软件一样。机器人仍然受到物理世界的物理定律的限制。如果需要开发硬件,它们还应打破数据,算法,供应链,业务模型和其他所有方面的所有方面,才能真正实现这一目标。 Hongjun:我认为这是一个非常大胆的预测。 Ke Li Yiming:我认为应该在5到10年内实施。该模型和算法的当前技能显然不是“我们可以通过商业化来生产产品”的地步,但是行业的速度确实很快,并且以极大的热情和投资,我相信在两三年的时间里,甚至每年都会有新的变化。此外,我们专门的智能行业与传统的机器人行业(例如自动驾驶甚至火箭攀登)确实不同。我们可能更像是扫地机器人,首先要扫描的机器人确实不完美,需要用户Firstwa可以做什么和不能做的是更好的商业模型。为此,我保守地估计,生产这种产品需要5到10年。它可能会不时犯错误,但是它犯的错误在用户的范围内,这也可以是帮助用户的产品。我有一个非常好奇的问题。一些机器人公司旨在“工业化”,并希望制定一些商业应用。这些公司应该如何考虑商业化和研发?图像来源:自变量机器人王霍:我认为这个问题很好。从第一天开始,我们就一直在思考,我们俩如何寻找星星并扎根?由于实际因素,无法实现AGI和Pthen考虑商业化。我们当前的方法是尽可能根据我们的整体模型进入某些情况。这情况应该相对接近您要实现的一般情况并可以衰减,因此我们尽量不要触摸尽可能紧密的情况。老年人照顾公共服务和服务等场景非常好。在通用机器人的最终应用情况下,这种情况有一些相似之处。它们可以参与一些复杂的任务,例如与人互动,并且还涉及更复杂的任务,例如清洁,选择对象,处理服装等。从这个角度来看,这些都是美丽的场景,因为它们接近最终目标,您也可以继续撤退并尝试在这些情况下尝试KGeneral模型,并且您可以在这些情况下获得非常重要的数据回报。但是,要保持这种最初的选择意图,拥有商业路径的坚定决心非常重要。另一个更重要的是公司组织的能力。因为组织和组织公司组织的愤怒功能将确定公司的上限。我认为该公司应该使用通用模型和基本模型作为其目的,并实现没有障碍和良好协调的组织,以便您在中间的每一步都不能犯任何错误,并最终使您能够实现最终目标。 Hongjun:因此,您要注意是否可以将培训方案应用于商业,而不是在封闭的情况下可以实现的训练场景。我们刚才提到的家具机器人可以帮助我们烹饪,洗衣服并折叠被子。是否可以将这种情况使用具有足够销售的机器人来支持机器人公司? Wang Hao:我认为这很有希望。由于整个机器人行业的规模并没有增加,因此仍然有足够的空间来降低硬件成本。通过提高模型级别和降低硬件成本,几年的价格将使用户更多可以接受。其次,从此功能的角度来看,如果我们可以帮助普通用户做很多事情,那么一切都会很乐意接受此类产品。现在,每个人都很难接受机器人,因为机器人似乎在跳舞并加入他们的情感上。他们似乎没有其他操作。以前,机器人没有机会向普通用户展示不同的申请,但是将来我认为有很多机会可以展示它们,而且这种想象力很大。[音频听力频道]官方帐户:Silicon Valley 101听力频道:Apple |小宇宙|喜马拉雅|蜻蜓FM | NetEase Cloud Music | QQ音乐| Lychee播客|买家海外用户:Apple Podcast | Spotify | Tunein |通过音乐音乐与我们联系:
[email protected]
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
NOTICe:上面的内容(包括照片和视频(如果有))已由Gunetease Hao上传和发布,该公司是一个社交媒体平台,提供信息服务。