大规模藏文合成数据集的构建

项目来源

委托方：

负责人：高志军

项目周期：2026年11月1日-2026年6月1日

天然藏文数据不足，探索通过合成数据的方式，大规模生成制造高质量藏文数据集。

合成数据质量对标天然数据
- 在词汇、句法、语义与篇章等关键语言特征上，与天然数据保持一致性，差异不显著（统计检验 p > 0.05；同时给出效应量阈值，如 |d| < 0.2 / KL 散度低于设定阈值）。
- 通过人工抽检与自动化质量评估双重验证（含流畅性、语法正确性、事实一致性、译文忠实度等指标）。
覆盖多领域、且分布均衡的数据资源池
- 构建覆盖科技、地理、历史文化、教育、公共服务等核心领域的藏文数据集
- 各领域样本数量达到预设规模，并控制长尾领域不过度稀缺
覆盖藏族用户高频使用场景的多任务数据类型
- 数据任务类型覆盖：汉藏/藏汉翻译、摘要/要点提取、对话回复、概念解释、问答检索式生成、写作润色/改写等。
面向训练与评测的可用性目标
- 合成数据可直接用于主流训练流程（清洗、去重、标注字段、元数据齐全），形成可复用的数据生成与质检流水线。
- 在下游基准任务上带来可量化增益（例如：翻译 BLEU/COMET、问答正确率、摘要 ROUGE 等提升达到预设目标），并提供与”仅天然数据/仅合成数据/混合数据”的对比实验报告。