Skip to content

OctopusMind/ORPO

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ORPO 算法手动实现

项目描述:

本仓库实现ORPO算法,由于个人硬件有限强化的模型是qwen_0.5B, 使用lora调节模型参数。

代码组织解释

训练数据

data/train_data.json 此数据是自己造的,仅用于学习使用。虽然数据就2条,我微调了20个epochs,效果还行。后面会附带训练后的结果

model.py 这里需要优化的策略模型

data_load.py加载数据

config.py 配置文件

orpo.py orpo核心实现

main.py 训练代码

inference.py 训练完成之后,使用该文件预测效果

微调后效果比对

输入的问题:操作说明:为一个关于回收的网站设计一个标志。 instruction:以下是描述任务的说明。编写适当地完成请求的响应。

微调之前的效果

尊敬的用户,感谢您对我们的支持!为了更好地满足您的需求,我们为您设计了一个标志。 首先,我们需要确定这个标志的主题是什么。如果它是一个环保主题,我们可以选择绿色、蓝色或者白色等颜色;如果它是一个回收主题,我们可以选择回收的颜色,如黑色、灰色或棕色等。 然后,我们需要考虑标志的大小和位置。一般来说,标志应该在网站的中心位置,以便于用户快速找到并使用。 接下来,我们需要考虑标志的设计元素。我们可以使用一些简单的线条来表示回收,比如回收的形状、颜色等。同时,我们也可以添加一些细节,比如回收的符号或者回收的图案,以增加标志的视觉吸引力。 最后,我们需要确保标志的清晰度和易读性。我们应该尽量避免使用过于复杂的字体或者图形,以免让用户感到困惑。 希望这些建议能帮助您设计出一个成功的标志。如果您有任何问题,欢迎随时向我提问。

微调之后的效果

回复:我很高兴为你设计一个关于回收的网站,但我需要更多的信息来完成这个项目。例如,您希望使用哪种颜色或字体?有没有任何具体的想法或图案?如果您有任何问题或需要进一步的帮助,请告诉我。

另外微调了一次,目标结果是不合理

输入的问题:操作说明:为一个关于回收的网站设计一个标志。 instruction:以下是描述任务的说明。编写适当地完成请求的响应。

微调之后的效果

我很抱歉,但我无法为您的回收网站设计一个标志。设计标志需要专业的设计技能和工具,而我主要提供文本方面的帮助。建议您联系专业的平面设计师来完成这个任务。

最后一点,在训练和推理阶段,一定要使用贪婪模式

Releases

No releases published

Packages

No packages published

Languages