什么是具身智能
康力优蓝总经理叶宝华先生首先解释了具身智能是指具有身体的人工智能,人工智能是研究开发用于虚拟、延展和扩展人的智能的方法,所以具身智能是一种机器对人的更高级的模拟,是机器和世界交互的载体。同时具身智能需要横跨多门学科,包括机器视觉、自然语言处理、认知推理、机器人学、结构学和博弈等。叶宝华强调英伟达提出具身智能之后,今年大量高校和企业投入了相关的研究,并普遍认为具身智能是人工智能的究极状态。
康力优蓝在2017年进入机器人赛道,仍有要攻克很多技术难点和成本的障碍。让机器人落地,算力是机器人的灵魂和大脑,其他如感知技术、运动技术,在目前还有待进一步细化来促进机器人的落地。
孙悦认为“具身智能”是人工智能与现实交互的桥梁,需要更多的学习,更多的数据计算。通过现实的形态与人进行交互,进行生产和服务,取代一些基础和进阶的工作任务,在算力上有很多的算力平台来支持其业务的执行。
在叶宝华看来,大模型是这个时代最伟大的工具,凝聚全人类的知识成果,赋予机器人更强大的能力,解锁了很多的专业技能。其中,大模型的自然语言处理汇聚了“自回归变换器+下一个词预测+强化学习”的配方,目前机器人技术没有算法达到同样的效果。
大模型通过GYM训练让机器人具备自主导航和避障;使用ROS实现与机器人操作系统的通信,借助模型使机器人理解并执行自然语言命令;在大模型中,运用深度学习、神经网络等技术构建强大的决策和控制网络,使机器人能够更好地处理数据和进行决策;通过训练大量的数据模型,提高机器人的感知和识别能力。
大模型还可用于优化机器人的运动控制算法,通过模拟和优化机器人的运动轨迹,提高其运动协调性和灵巧性,未来还可以使机器人有生成和解析图像的能力。算法即机器人的核心和灵魂,大模型为机器人带来了大脑层级的进化,大模型通过超强的算法支撑不断地进行仿真训练,以提高机器人的智能水平、感知能力和运动能力。这些决定了机器人的高度,赋予了机器人大量的专业技术,现在自然语言的处理能力解决了以往行业的难点。
人形机器人的应用场景和解决方案
在大模型发布之后,康力优蓝就提出了定位政务方面的产品研发方向,如科技馆、党史馆,通过群集讲解,可以让机器人将其他馆的内容结合在一起进行讲解。在这一过程中,通过更多的屏幕,将会让讲解内容更生动丰富。
孙悦认为本地化的拟人机器人是非常关键的场景,大屏交互和类似语言助手的产品已非常普及,其短板在于只能在固定的场景和内容上进行应用。拟人机器人出现后,需要人的动作和演示,就需要更多的算力来处理更复杂的场景,需要的数据量比传统语言模型有了大幅增长,对数据带宽的要求也有所增加。如在云端的大模型和终端机器人连接,因为网络原因就有更高的延迟响应时间。这种情况下,通过使用工作站在本地进行部署,针对特定的场景进行设计,不仅成本可控,对年轻人体验的实效性和拟人性将带来很大的提升效果。
在移动端,戴尔提供的Precision 7780移动工作站,使用NVIDIA RTX 5000 Ada专业显卡,TDP 55W的处理器,在某些特定的机器人在内网算力需求不是特别高的情况下,可以满足使用的需求。在机器视觉相关算力要求较高的场景,戴尔的Precision 5860塔式工作站,有更强的处理器和更大的内存,搭载更多的显卡并行计算来满足更高的算力需求。
叶宝华就具体的应用场景需求也进行了介绍:康力优蓝在2019年担纲了多智灵巧手的项目和四所顶尖大学以及四家科技公司一起完成课题的交付。灵巧手作为未来机器人核心的零部件,人型机器人的照护需要灵活的机械臂搭载灵巧手来完成各种工作,其所需要的驱动和图像识别都以庞大的算力和算法来支撑。灵巧手需要视觉更精确,不损坏物体,对不同物体表面进行逻辑判断需要多少力量,需要更多的算力,需要第三方像戴尔这样的公司对研发进行支持。
针对康力优蓝的需求,孙悦表示戴尔作为一家端到端的方案提供商其产品线非常全面,戴尔的工作站产品组合面向各种应用场景设计,戴尔的工作站都有相应的产品匹配。比如戴尔Precision 7960塔式工作站,提供高达4TB的超大容量内存和多达4张顶级专业GPU的并行计算能力,在大数据量应用场景,无论是计算、训练还是应用端,都可以很好的完成工作需求。一台Precision 7960塔式工作站就可以解决一个小机房的建设问题,且无需考虑散热等问题。
叶宝华强调,随着今年特斯拉机器人的火爆,大量的企业进入这一领域,但人形机器人需要具备高度灵活的运动能力,包括步态控制、姿态调整、动作规划等大量的技术。
运动控制技术:人形机器人需要具备高度灵活的运动能力,包括步态控制、姿态调整、动作规划等。
感知技术:人形机器人需要具备对外界环境的感知能力,包括视觉、听觉、触觉等。这需要用到计算机视觉、机器听觉和触觉传感器等相关技术。
材料技术:人形机器人需要具备轻量化和耐用的材料,以确保其稳定性和耐用性。这需要用到高强度材料、轻量化材料等。
动力技术:人形机器人需要具备高效的能源系统,以确保其持久性和稳定性。这需要用到高能量密度电池、节能技术等。
应用模型:需要落地化而不是通用型的大模型。
人形机器人要实现以上的技术,需要计算机视觉和机器视觉技术来解决感知、理解和识别;计算机视觉和机器视觉技术让机器人能够自我学习改进来适应不同环境和任务;需要物联网和网络通信技术,实现机器人与外部系统的数据交换和协同工作;需要高性能计算和边缘计算技术来处理和分析大量数据,提供快速响应和高效运行,并确保机器人系统的安全性和用户数据的隐私保护,而这一切都需要像工作站这样的设备来让所有的技术得到稳定的运行。
比如机器人的步态需要成千上万小时的调整去累积,需要多台机器的积累以形成工具包,每天监控实验室的训练数据。在这个过程中,如果有工作站参与,在数据分析、步态调整的速率上将有更快的进展和进步。
康力优蓝的需求在孙悦看来,中小企业和小型团队使用戴尔Precision 5860塔式工作站支持RAID,支持数据保护,海量数据的处理能力对硬盘的需求在一台设备就可以全部解决,可以大大降低使用成本和拥有成本。
戴尔Precision工作站采用了NVIDIA的专业级显卡,第四代Tensor核心比前一代提供了显著的性能提升,这里的数据基于原型硬件和软件的早期性能数据,基于运行AI测试的结果和整个测试集的平均性能结果。在高性能GPU带来的性能基础之上,戴尔为各行业的专业人士打造的高性能、高可靠、高安全性的电脑,来满足不同的需求。配合微软专业工作站版Windows 11,可以为高级工作负载和数据需求的人士提供支持,为了满足大企业的需求,还可以提供企业版的Windows产品可以给用户更多的选择,部署灵活无需专业机房。
当前服务机器人在消费领域大家最了解的是扫地机,而康力优蓝认为在烹饪康养领域会有越来越多的市场需求,中生代上有老下有小,机器人做一些日常家务,并智能对用户需求做出判断,如烹饪每道菜的数据微调测试都需要不断测试,以往需要人力进行几十次调整才能定型,康力优蓝希望在大模型和工作站的加持下,让康养机器人可以更快地进入量产领域。
根据叶宝华介绍的需求,孙悦推荐了戴尔的Precision 3660塔式工作站,其优势在于可以提供液冷和风冷散热方案,入门级方案就可以提供顶级显卡辅助机器视觉的计算,在使用液冷之后,家庭中也不会有噪音的烦恼。工作站提供了大硬盘的扩展能力,配合顶级GPU,可以解决家庭中机器人部署的实际算力需求。
康力优蓝在机器人产品的定位足够清晰,人性化的交互逻辑设计和高科技属性融合到机器人中,使众多核心功能实用化落地,借助大模型给行业带来的基础,在应用层面如养老、医疗、研究,康力优蓝在和医疗机构合作开发抑郁症相关的机器人。目前康力优蓝通过和戴尔合作对患者进行个性化测试,来判断抑郁症的程度和情绪,因为患者在面对机器人而非真人更容易吐露心声。
小结:
机器人研发企业在AI大模型特别是多模态的探索上已经走在前列,也因为大模型技术加持,让更多像康力优蓝这样的高科技创业公司“一鸣惊人”成为可能。不过“具身智能”的进步需要包括硬件制造、软件开发和算法设计等多方面的力量共同协作。而戴尔Precision工作站在开发方面的专业级的解决方案之外,在出版教育行业,还有工业、医疗、金融、电商、娱乐、游戏等行业,都有专门为这些专业需求有所定制。