进入物理世界:灵活的脑子如果没有强健的躯干配合,最终还是搅动不起太大的风浪,就像忍者神龟里的反派施莱德
进入物理世界
腾讯新成员,手也太巧了
腾讯发布机器人:机器人灵巧手 TRX-Hand 和机械臂 TRX-Arm 的发布,旨在服务生活。
TRX-Hand 拥有多模态能力:可以通过视觉、接近觉、触觉和力觉等感知能力来执行任务。
TRX-Hand 能做各类难度动作:具有高灵敏度触觉皮肤、可独立控制关节、柔性驱动的指尖设计等特点,能够轻松拿捏不同形状尺寸物体和高动态的难度动作。
TRX-Hand 具备容错机制:能够处理因误差造成的任务失败并自主调整策略,最终成功完成任务。
TRX-Hand 可以做类似人类的动作:经过深度学习和仿真环境的练习,能够在指尖接触到搅拌棒时,很快、很稳地生成三个手指的协同运动,并搅拌杯子里的液体。
博龙补一句:
看完文章里尤其是搅拌棒的那个例子之后,我的第一反应是——费了这么半天劲,为啥一定要是模拟手指——人类的五指一定硅基与这个世界最合适的精细操作方式吗,比如咱们就说,撬锁这件事情
微软开源新研究:将ChatGPT对话转化为实体机器人动作,“终结者”要来了
利用ChatGPT简化物理机器人迭代:通过定义高级机器人API或函数库,为ChatGPT编写文本提示,用户评估ChatGPT的代码输出,简化物理机器人的功能迭代流程,使其更加高效、实时、易懂。
自然语言控制实体机器人:微软宣布开源了ChatGPT-Robot-Manipulation-Prompts,将自然语言对话转化为实体机器人动作,简化了用户与机器人的交互过程。
广泛的商业应用场景:微软表示,ChatGPT控制实体机器人具有巨大的商业应用场景,将简化实体机器人的应用流程并增强用户体验,使每个人都能拥有自己的家用机器人。
多轮对话模板:微软开发了一组多轮对话模板,用于ChatGPT与实体机器人的交互,让机器人根据自己之前的输出和用户反馈进行更正。
主要技术特性:适用于各种家居环境,输出预定义的机器人动作,表示操作环境,推断并输出运行环境的更新状态,支持与机器人执行系统或视觉识别程序实现集成。
博龙补一句:
1、文章里七分钟的语音demo还是太浅,识别图像后自适应做动作还有点看头,建议跟Daily0413.2结合在一起服用
2、自然语言这个阶段带给机器人控制的最大增量在于它可以自适应的根据自然语言做微调,十多年前写过小车上跷跷板算法的我能深深感受到做父亲的绝望
制造业「ChatGPT」来了,我们和「奇智孔明」聊了聊
AI2.0时代战略布局:创新奇智发布了面向制造业的 AIGC 产品「奇智孔明」AInnoGC,这是一个工业预训练大模型为核心的生成式AI工程算法引擎,能够生成高质量的垂直于行业或企业的内容。
智能实训:「奇智孔明」的智能实训能力能快速准备如汽车厂家的培训大纲,有经济效益和社会效益,对于模型来说,源源不断的反馈和数据供给有利于模型能力的提升。
工业软件:「奇智孔明」在工业软件应用上可以整合ERP、MES等不同业务系统的数据,按需生成各种分析报表,辅助决策,同时积累数据和信息资产。
发展潜力:创新奇智认为AI生成内容能力在很多工业场景中有很大发展空间,如样本甚至标签生成、智能产线设计、自动排程等。
重点关注服务与经济效益:创新奇智更关注工业预训练模型的领域性和私有化部署,模型的成功依赖于大量专业数据和行业know-how的积累。
博龙补一句:
1、评论尸在一个月前就提到过chatGPT对于toB业务的一个重要影响就是交付成本的降低,这篇文章很好的做了注解
2、会话能让过去长尾的需求融合在一个界面里,以简单的方式被调用,在交互效率上是优于GUI的
3、某些场景下,也许群聊会更适合单聊,比如群内专业文章的摘要,长难PDF的共学,这里还有很多值得探索的空间
MiniGPT-4 ,开源了!
GPT-4的强大功能:GPT-4不仅逻辑分析和统筹规划能力强大,还具有多模态生成能力,可理解图像输入并与之对话。
图像对话特点:GPT-4演示了如何根据手绘草图生成网站,识别图像中的笑点,正确解答数学题目等。
MiniGPT-4项目:阿卜杜拉国王科技大学博士研发了名为MiniGPT-4的项目,提供类似 GPT-4 的图像理解与对话能力。
实验结果分析:研究表明,GPT-4的多模态生成能力主要源于其先进的大型语言模型,未来在其他领域的实际效果不会太差。
AI应用前景:基于大语言模型的应用可拓展至音频、视频等领域,未来将出现更多有趣且令人惊艳的AI应用。
博龙补一句:也许对于miniGPT4而言变现路径最直接的场景是验证码识别;证明自己是个人类,而不用再跑到打码平台上求助于人