拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开（嵩山是哪一岳）

原标题：拿下SOTA！最强中文Embedding模型对标OpenAI

，技术路线公开

关键字：模型,商汤,任务,向量,维度

文章来源：新智元

内容字数：0字

新智元报道编辑：编辑部

【新智元导读】国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是，来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。国产大模型最近在权威主流评测中「杀」疯了！

商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中，成为首个超越GPT-4

Turbo的国产大模型；在OpenCompass的基准表现中，客观评测超过GPT-4 Turbo，主观评测已超过GPT-4o位列第一。

这次「又双叒叕变强」背后是算法、算力、数据的全面「buff」叠加，其中最重要的技术之一、也是解决LLM幻觉问题的关键——商汤自研的通用Embedding模型Piccolo2。

Piccolo2日前已突破SOTA，在由北京智源研究院发布的中文语义向量评测基准C-MTEB评测中名列第一，这是当前最大规模、最为全面的中文语义向量表征能力评测基准，包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。

如今，商汤公开了技术路线。

Piccolo2目前支持512/2K/8K三种向量长度，其中8K模

原文链接：拿下SOTA！最强中文Embedding模型对标OpenAI，技术路线公开

文章来源：新智元

作者微信：AI_era

作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。