Fugaku-LLM/DeepSpeedFugaku

日本的一个研究小组发布了Fugaku-LLM，一个大型语言模型(1)具有增强的日语能力，使用RIKEN超级计算机Fugaku。该团队由东京工业大学的Rio Yokota教授、东北大学的Keisuke Sakaguchi副教授、富士通株式会社的Koichi Shirahata、RIKEN的Mohamed Wahib团队负责人、名古屋大学的Koji Nishiguchi副教授、CyberAgent， Inc的Shota Sasaki和Kotoba Technologies Inc.的Noriyuki Kojima领导。

为了在Fugaku上训练大型语言模型，研究人员开发了分布式训练方法，包括将深度学习框架Megatron-DeepSpeed移植到Fugaku，以优化Fugaku上变形金刚的性能。他们通过结合三种并行化技术加速了Transformers的密集矩阵乘法库，优化了Fugaku的通信性能，并加速了Tofu互连D上的集体通信库。

Fugaku-LLM 有 130 亿个参数(2)并且比日本广泛开发的 70 亿参数模型更大。Fugaku-LLM增强了日语能力，在日语MT-Bench上的平均得分为5.5分(3)，在使用日本生产的原始数据进行训练的开放模型中性能最高。其中，人文社会科学任务的基准表现达到了9.18分的惊人高分。

Fugaku-LLM使用CyberAgent收集的专有日语数据以及英语数据和其他数据进行训练。Fugaku-LLM 的源代码可在 GitHub 上找到(4)该模型可在 Hugging Face 上使用(5).Fugaku-LLM可以用于研究和商业目的，只要用户遵守许可证。

未来，随着越来越多的研究人员和工程师参与到模型及其应用的改进中来，培训效率将得到提高，从而产生下一代创新研究和商业应用，例如科学模拟和生成式AI的联动，以及拥有数千个AI的虚拟社区的社交模拟。

GitHub LLM AI

参考