+ 我要发布
我发布的 我的标签 发现
浏览器扩展
斑点象@Edge

Fugaku-LLM/DeepSpeedFugaku

日本的一个研究小组发布了Fugaku-LLM,一个大型语言模型(1)具有增强的日语能力,使用RIKEN超级计算机Fugaku。该团队由东京工业大学的Rio Yokota教授、东北大学的Keisuke Sakaguchi副教授、富士通株式会社的Koichi Shirahata、RIKEN的Mohamed Wahib团队负责人、名古屋大学的Koji Nishiguchi副教授、CyberAgent, Inc的Shota Sasaki和Kotoba Technologies Inc.的Noriyuki Kojima领导。 为了在Fugaku上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架Megatron-DeepSpeed移植到Fugaku,以优化Fugaku上变形金刚的性能。他们通过结合三种并行化技术加速了Transformers的密集矩阵乘法库,优化了Fugaku的通信性能,并加速了Tofu互连D上的集体通信库。 Fugaku-LLM 有 130 亿个参数(2)并且比日本广泛开发的 70 亿参数模型更大。Fugaku-LLM增强了日语能力,在日语MT-Bench上的平均得分为5.5分(3),在使用日本生产的原始数据进行训练的开放模型中性能最高。其中,人文社会科学任务的基准表现达到了9.18分的惊人高分。 Fugaku-LLM使用CyberAgent收集的专有日语数据以及英语数据和其他数据进行训练。Fugaku-LLM 的源代码可在 GitHub 上找到(4)该模型可在 Hugging Face 上使用(5).Fugaku-LLM可以用于研究和商业目的,只要用户遵守许可证。 未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,培训效率将得到提高,从而产生下一代创新研究和商业应用,例如科学模拟和生成式AI的联动,以及拥有数千个AI的虚拟社区的社交模拟。
你可能想看的