Skip to content

中文羊驼大模型三期 v1.0

Compare
Choose a tag to compare
@ymcui ymcui released this 30 Apr 01:23
· 43 commits to main since this release
ba95712

中文羊驼大模型已正式发布,本次开源了Llama-3-Chinese-8B(基座模型)和Llama-3-Chinese-8B-Instruct(指令模型)。

  • Llama-3-Chinese-8B:基座模型,使用120GB语料进行增量训练
  • Llama-3-Chinese-8B-Instruct:指令/chat模型,在Llama-3-Chinese-8B的基础上进一步通过指令精调(500万条指令)获得

下载方式

模型名称 类型 参数量 完整版 LoRA版 GGUF版
Llama-3-Chinese-8B 基座模型 8B [🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]
Llama-3-Chinese-8B-Instruct 指令模型 8B [🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]
[🤗Hugging Face]
[🤖ModelScope]

模型特点

📖 使用原版Llama-3词表

  • Llama-3相比其前两代显著扩充了词表大小,由32K扩充至128K,并且改为BPE词表
  • 初步实验发现Llama-3词表的编码效率与我们扩充词表的中文LLaMA-2相当,效率约为中文LLaMA-2词表的95%(基于维基百科数据上的编码效率测试)
  • 结合我们在中文Mixtral上的相关经验及实验结论1,我们并未对词表进行额外扩充

🚄 长上下文长度由二代4K扩展至8K

  • Llama-3将原生上下文窗口长度从4K提升至8K,能够进一步处理更长的上下文信息
  • 用户也可通过PI、NTK、YaRN等方法对模型进行长上下文的扩展,以支持更长文本的处理

⚡ 使用分组查询注意力机制

  • Llama-3采用了Llama-2中大参数量版本应用的分组查询注意力(GQA)机制,能够进一步提升模型的效率

🗒 全新的指令模板

  • Llama-3-Instruct采用了全新的指令模板,与Llama-2-chat不兼容,使用时应严格遵循官方指令模板
  1. Cui and Yao, 2024. Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral