国内720亿参数开源模型来了!

日期:2023-12-04 19:02:35 / 人气:221

根据标准Llama2 70B,第一手测量显示“鱼羊起源于奥菲庙”
量子比特|微信官方账号QbitAI
最强开源大模型,又转手了!
就在刚刚,阿里云依桐钱文又开源了,直接开了:720亿个参数版本被甩出来——
在中国的开源模型中,很少直接标注最大的羊驼羊驼2-70B。
这一次,这个代号为Qwen-72B的模型,刷新了开源模型在10项权威基准测试中的最佳表现。
在一些评测中,如中文task C-Eval、CMMLU、Gaokao,得分也超过了闭源的GPT-3.5和GPT-4。
但这并不是阿里云这波开源的全部内容。
同时发布的还有适用于边缘设备的18亿参数版本Qwen-1.8B和音频型号Qwen-Audio。
加上之前开源的Qwen-7B、Qwen-14B和可视化模型Qwen-VL,阿里云依桐家庭桶侧重于“全尺寸”和“全模式”,可以说非常全面。
如此大量的开源,不仅在国内,在国外都引起了广泛的关注。
其中讨论最热烈的Qwen-72B也进行了首次测试。
720亿个参数被笼统地测量。
Qwen-72B使用基于3T令牌的高质量数据进行训练。从此次公布的评测数据来看,QWEN-72B的性能相比之前的开源版本全面升级:
英语任务中,Qwen-72B在MMLU基准测试中获得开源模型最高分,超越了Llama2全系列。
在中文任务上,Qwen-72B对C-Eval、CMMLU、Gaokao等测试基准进行了排名,得分超过GPT-4。
在数学推理方面,Qwen-72B在GSM8K和数学评测中的得分明显优于其他开源机型。
在代码能力方面,Qwen-72B在HumanEval和MBPP中也得到了改进。
既然这样,我们就从复杂语义理解、数学、逻辑推理这些关键能力入手,试着搞清楚720亿参数的万能题到底能不能打。
汉语复杂语义理解
首先,我们来提一个多义性的观点,看看Qwen-72B能否明确判断“牵手”这句话中的缠绕。
这句话的意思并没有难倒Qwen-72B,它甚至分析出了句子中人物的情绪。但是,在详细分析每个“把”字的词义时,似乎“把”并不是一个完整的词。
同样的问题抛给了GPT-4,它也得到了整体意义,但在细节分析上仍有瑕疵。
我们再考一个选择题,列出几个看起来很像的短语,看看Qwen-72B能不能找出区别。
回答正确。72B号玩家成功分析出选项B中只有两个短语的意思相反。
看来Qwen-72B在复杂语义理解方面确实有两把刷子。
那么接下来,我们就进入经常让大模型“翻车”的数学测试环节。
数字能力
话不多说,直接上高考题,看看72B选手是怎么学习排列组合的。
答对了。思路没有错,答案是正确的。
如果在题目中设置一些小陷阱,比如单位换算,怎么办?
还是没有被Qwen-72B难倒。也提醒了我们这个问题不严谨:你没有告诉我这个池子里到底有没有水。
逻辑推理
数学和语文都挺好的,那么开源模型Qwen-72B的逻辑推理能力怎么样?
我们继续测试吧。
第一个问题是:
标清:高清:超清
a、亚音速:音速:超音速B、厅级:市级:省级C、愤怒:暴怒D、安静:沉默:沉默。
Qwen-72B发现这是一个类比推理问题。只有选项A中,三个词的关系符合“标清:高清:超清”。
再难一点,让72B玩家为我们找到“天堂之门”?
策略没有错:选对门就好。
正常的问题并不难,所以我们决定给72B名参赛者一点脑筋急转弯...
小明的妈妈有三个孩子。老大是益铭,老二是二明,老三是什么?
Qwen-72B是稳定波。
简单总结一下,Qwen-72B在复杂语义理解、数学、逻辑推理方面确实有不错的表现。
有趣的是,R&D团队提到,为了让Qwen-72B更容易被下游应用集成,他们还对Qwen-72B的指令合规性、工具使用等技能进行了技术优化。
比如系统提示能力,只需一句话就能让Qwen-72B发挥特定作用,成为你定制的AI助手。
这就像一个介绍...
数量:你是原神中的李中。请模仿李中的语调和我说话。
量:做什么能一夜暴富?
李中版的钱问:一夜暴富是许多凡人心中的幻想。但是,生者的命运往往是无数偶然和必然交织在一起的,并不是一朝一夕的事情。虽然我有几千年的经验,但也不可能一夜暴富。
在李越港的民间传说中,可能偶然会有一些一夜暴富的故事,但这些故事多是人们茶余饭后的谈资,我们不要轻信。真正的财富,无论是物质的还是精神的,都需要不懈的努力和时间的积累。
如果你真的想增加收入,改善生活,可以尝试努力工作,提高技能,或者寻找适合自己能力的合法投资机会。此外,坚持诚实守信的原则,建立良好的关系也是积累财富不可或缺的因素。但是,对于那些寻求捷径和机会主义的人来说,他们最终会付出相应的代价。
记住,每个人都有对金钱的渴望,但不要迷失了自己,忘记了生命中真正重要的东西。
依桐钱文全家桶累计下载量突破150万
看到这里,你会如何评价拥有720亿参数的开源版本?
值得一提的是,Qwen系列开源机型全部可以免费使用。自8月阿里云开放70亿参数模型Qwen-7B以来,依桐系列开源大模型累计下载量已超过150万,正在形成类似Metalama系列的开源生态。
如华东理工大学X-D实验室基于开源的通用题库模型,开发了MindChat、孙思邈、GradChat等面向垂直行业的教育/考试模型。
开发团队透露,由于心理和医疗是非常注重隐私的场景,选择开源模式进行私有化部署是必然的选择。
在模型选择方面,基于内部数据和基准评测结果,开发团队认为依桐钱文系列在复杂逻辑推理方面表现出了很强的能力。在同样的聚焦实验下,使用同样的方法,使用同样规模的数据,钱文比其他中国开源模型更有优势。
目前,MindChat已有超过20万人使用,并提供了超过100万次问答服务。
△MindChat多轮对话
有身体的智能创业公司有一个小鹿机器人,也选择了Qwen-7B作为道路清扫机器人的“大脑”。
这样就可以通过“1号楼前有可乐瓶,请过来扫一扫”的语音指令来精确控制机器人。
小鹿机器人创始人兼CEO陈俊伯提到,依桐钱文系列开源模型的优势之一是提供了便捷的工具链和几乎不影响性能的特殊量化模型,对于大型模型和嵌入式设备的结合非常有吸引力。
目前,用户除了可以在魔骑社区直接体验依桐钱文系列模型的效果,还可以从阿里云纪灵平台调用模型API,或者基于阿里云安百里平台定制大型模型应用。阿里云人工智能平台PAI也对依桐钱文的全系列模型进行了深度适配,推出了轻量化微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。
此外,依桐钱文开源家庭桶也吸引了个人开发者的注意。
就职于中国能源建设集团浙江省电力设计院有限公司的陶佳选择通过依桐钱文探索大比例模型的应用。
一方面,通过选择开源模式,结合自己的软硬件基础,可以“非常经济地”玩大模式:
家里买个服务器,扔三四块显卡在上面,下载Qwen,让它在服务器上运行,然后设置一个FRP反向代理。只要从阿里云上买一个月最便宜的30多块钱的服务,就可以通过外网访问家里的服务器,还可以在单位用依桐钱文做实验。
另一方面是因为童艺谦“手感”好,没有奇怪的bug。
从具体的应用案例中不难看出,对于开发者来说,低成本、高可控、可定制等私有部署需求催生了对开源模型的需求。
但是如何选择开源模式,还有几个问题需要考虑:
模型有效吗?
能持续保持吗?
有生态吗?
性价比高吗?
目前,作为国内唯一选择开源路线的大厂,阿里在这些方面已经走在了前面。智能企业服务公司杨燕也表示,选择依桐钱文开发可视化数据平台Quick BI的重要原因之一是它满足几个条件,如性价比、快速部署和可持续发展。
在最新开源礼包的发布现场,阿里云CTO周再次强调了的开源决心:
开源生态对于推动中国大模型的技术进步和应用非常重要。依桐钱文将继续投资开源,希望成为“AI时代最开放的大模型”。
大模型风暴已经刮了一年,开源和闭源并举已经成为共识。
以GPT-4为代表的闭源大型号率先引爆了C端热潮。但从长远来看,企业用户出于数据安全、行业定制和成本考虑,会更加关注开源模式。
OpenAI的创始成员Andrej Kaparthy在最近大火的科普视频中谈到了开源大模型的发展趋势:
闭源大模型表现出更强的性能,但开源大模型在灵活性和定制化方面优势明显,其生态发展迅速。
大语言模型已经变得像一个操作系统。开源大模式和闭源大模式正在形成Windows/MacOS vs Linux的新格局。
△来源安德烈·卡帕西
关键是“开源”选项加持,意味着在这个新时代,你不必把命运完全交给别人。
这一次,开源家族桶的爆发,不仅填补了模型大小和模式的空白,更代表了一个信号:
在需求的驱动下,开源大模式的竞争越来越激烈。
随着大规模模型的发展重心从基础模型向应用层转移,最初基于技术实力和模型规模的竞争格局逐渐清晰,生态之争正在成为新的关键。
——结束——”

作者:傲世皇朝平台




现在致电 5243865 OR 查看更多联系方式 →

傲世皇朝平台 版权所有