-
Notifications
You must be signed in to change notification settings - Fork 40
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
The issue with the Data Selection Pipeline #33
Comments
你好,我不是原作者,我也在复现这篇工作。 按照论文所报告的参数,bz大小为128,四个数据集合在一起总的数据量除以bz应该是105,也就是CKPT=105的来源。考虑到sh脚本里给的默认参数gradient accumulate step是32,他们的实验应该运行在4张GPU上,我认为你需要检查一下你实验中的设置有没有跟他对齐 |
步骤一中使用四张卡训练的话,除了设置torchrun --nproc_per_node 4和export CUDA_VISIBLE_DEVICES=4,5,6,7还有什么地方需要设置吗,因为目前分布式训练好像并没有成功使用多张卡 |
@xavierdawn |
请问,目前我运行了你的相关代码,我心中存在以下的疑惑:
(1)步骤二:
步骤三:
步骤三的第一个脚本
步骤三的第二个脚本
是否需要对每个CKPT都进行运算还是只需要对最后一次的CKPT进行运算?(我一共有4个CKPT,是需要对4个都进行运算,还是只需要对最后一个进行运算?)
(2)在我的实验中,我只使用了最后一次的CKPT(一共有4次,分别是422、845、1268、1688),CKPT选择了最后一次保存的CKPT,在步骤三的第一个脚本中,我使用CKPTS=‘1688’。我一共进行了两次实验,第一次实验的设置如下:步骤二除了CKPT外其余的不变,在步骤三的第二个脚本中,我将CKPTS=1688,TRAIN_FILE_NAMES=dolly (因为我只得到了dolly的数据梯度),在MMLU和BBH任务中得到的结果分别是46.9和41.2。在第二次实验中,步骤二中CKPT=1688,TRAINING_DATA_NAME=flan_v2 cot dolly oasst1,在步骤三的第二个脚本中,我将CKPTS=1688,TRAIN_FILE_NAMES=flan_v2 cot dolly oasst1,在MMLU和BBH任务中得到的结果分别是43.9和40.0。请问我使用了更多的数据集为什么得到的结果还不如使用少量的数据集?
(3)Data Selection Pipeline的一些脚本问题,最开始只使用dolly数据集得到训练数据的梯度,但是到最后使用了4个数据集flan_v2 cot dolly oasst1来计算影响力分数,感觉这一点有点混乱。
The text was updated successfully, but these errors were encountered: