《2024大模型训练数据白皮书》由阿里巴巴集团、数字中国研究院(福建)和阿里云智能集团联合发布,深入探讨了大模型训练数据的重要性、类型、常见误解、高质量数据的标准,以及合成数据作为新兴解决方案的角色。
报告强调,大模型训练依赖于高质量数据,这些数据应具备真实性、准确性、客观性和多样性。高质量数据对于提升模型的准确性、稳定性和泛化能力至关重要。同时,报告指出合成数据的重要性,它通过算法和数学模型创建,模拟真实数据的统计模式和关系,有助于解决真实世界数据难以获取的问题。
报告中提到,大模型训练并不依赖用户个人信息,中文语料的短缺也不是制约中国大模型发展的关键因素。相反,中式价值观类语料的短缺可能成为制约发展的短板。因此,报告提倡在训练中加入更多代表中式价值观的语料,以帮助大模型更好地理解和反映中文使用者的文化背景和价值取向。
在数据治理方面,报告建议构建顺应模型发展的新时代数据治理制度,重视数据的可及性,并从输入端的前置使用限制转变为输出端的管控和事后救济。同时,报告提出应提升模型安全训练数据的供给,并鼓励安全类数据集的开放共享。
报告还讨论了中美两国在大模型训练数据方面的不同现状,指出美国政府在公共数据开放方面发挥了重要作用,而中国则需要进一步推动公共数据的开放和共享。
来源:阿里研究院