Goat-Math-Chinese

山羊中文算术大模型

介绍

上述论文提出了一个专供算术的模型山羊Goat，是在LLaMA上进行的微调，由于LLaMA不支持中文，所以我们训练一个基于中文的算术模型。

中文基座模型

由于LLaMA不支持中文，所以我们选择一个支持中文的LLaMA模型，最近百川智能开源了baichuan-7B的模型，这个模型和LLaMA是一样的模型设计

在Goat的论文中，对比了不同模型的tokenizer，ChatGLM-6B和LLaMA一样，对数字的每一位进行单独切分，避免了数字不一致的问题，所以我们也来测试一下ChatGLM-6B

论文原理介绍

构建中文小学数学垂类大模型-原理介绍

Goat论文，开源了英文的Goat数据集，主要包括加减乘除的相关数据，我将其转成成了中文的算术数据集，放到了huggingface上面

Belle也开源了一个数学的数据集，我们也拿来一起训练一下，让模型也能够解答简单的数学问题

模型训练集输入格式

instruction: 指令
input: 输入（本数据集均为空）
output: 输出