【LLM Review】Synthesis Data的一些实践经验 - 2025-M2
- 什么是数据合成?为什么要做合成?
- 哪些能力的提升适合合成来做?
- 评价标准:准确性、密度、广度、深度和格式
- knowledge适合吗?Textbook适合吗?
- sota模型合成的knowledge的准确性、密度、广度和格式比wiki或Textbook更好吗?
- math、reason、code、creative writing、IF需要单独增强。
- 如何做数据合成?
- 合成类别
- 部分合成::改写(风格、翻译、math数字调整)、抽取(web orangic qa)、纠错、省略不重要的内容
- 全部合成:
- Textbook
- Q&A
- 数据类型包括:
- math
- code:
- task_type:generate、complete、edit、debug;multi-language
- persona+skill+difficulty+task_type
- persona+需要用编程方式解决的问题。persona+skill+difficulty+task_type
- nv nometron 405b、wizardcoder、opencoder、migicoder、TÜLU 3
- instruction2skill mix
- 基于各类Instruct的非舒适区合成:
- generate或complete
- edit或debug:较少
- verify:compiler > LLM
- import package
- multi-language
- reason
- creative writing
- IF
- 类benchmark合成:skill+benchmark few shot定向刷分
- instruct合成:
- persona/skill/knowledge + difficulty(舒适区) + benchmark few shot,doc2instruct或doc2persona2instruct,evolution
- response生成和校验
- sota模型 long_cot/cot/direct生成
- 校验:有参考答案rule- base,没有的llm as judge
- 数据类型包括:
- 合成类别
- 合成带来的问题
- 多样性问题
- 法律风险
TODO
欢迎交流与合作
目前主要兴趣是探索agent的真正落地,想进一步交流可加微信(微信号:cleezhang),一些自我介绍。