最近这件事在日本的X讨论炸了,起因是昨天日本一家科技公司乐天集团(Rakuten)在日本经济产业省(METI)的GENIAC项目(日本AI政府资助项目)支持下,高调发布了号称「日本最大、性能最强」的7000亿参数大模型Rakuten AI 3.0。
但发布后不久,开源社区就迅速扒出,该模型的底层架构实际上是来自我们的DeepSeek-V3,乐天仅仅是做了日文数据的微调。
在知名的AI开源库Hugging Face上,Rukuten AI 3.0赫然在自己的配置文件里面写着架构来自DeepSeek V3。
更致命的是,乐天为了掩盖这一事实,在开源时偷偷删除了DeepSeek的MIT开源协议文件。在被社区实锤后,才灰溜溜地以「NOTICE」文件名重新补上。
掩耳盗铃的「日本最强」
单看Rakuten公司发布的公关稿,这个模型确实还算得上是日本在LLMs领域的一次比较有实力的发布。
这是一款拥有约7000亿参数的混合专家(MoE)模型,经开源社区确认,是和DeepSeek V3一样的671B总参数,激活37B。
关于Rakuten AI 3.0的模型表现,在官方公布的各项基准测试中,它在日语文化知识、历史、研究生水平推理、甚至竞技数学和指令遵循等维度上,得分表现都极其优异。
不过,用来对比的模型,是已经被下架了的GPT 4o、只有1200亿参数的GPT OSS,还有日本的新兴另一个AI开发企业ABEJA基于千问推出的ABEJA QwQ 32b模型。7000亿和最多1200亿比,Rakuten AI 3.0确实是赢了不少。
还得是DeepSeek
但光环褪去得比想象中更快。先不说7000亿参数、MoE架构,这几个关键词组合在一起,在当今的开源大模型圈子里,指向性实在太强了。等到开源社区的开发者们,到Hugging Face上一看详细的代码配置文件,竟然直接就写着DeepSeek V3。
从底层逻辑来看,这就是「中国架构+日本微调」。DeepSeek提供了那套被全球验证过、极其高效的底层架构和推理能力,而乐天则利用其本土优势,用高质量的日文语料对其进行了微调,让它变得更懂日本文化。
客观来说,拿开源模型做本土化微调,在技术圈是一件极其正常且合理的事情。就像他们拿来作为对比的ABEJA QwQ 32b模型一样,连代号都不改,直接用Qwen的QwQ。
如果乐天这次也坦坦荡荡地承认使用了DeepSeek的底座,顶多是一次缺乏新意的「套壳」发布,兴许还能蹭一波DeepSeek的热度。但他们偏偏选择了掩藏。
乐天的算盘打得很精,抹掉DeepSeek的名字,套上自己的Apache 2.0协议,再把自己包装成「慷慨开源7000亿参数大模型」的日本AI救世主。
原文链接:虎嗅

