项目来源
委托方:
负责人:高志军
项目周期:2026年11月1日-2026年6月1日
研究任务
天然藏文数据不足,探索通过合成数据的方式,大规模生成制造高质量藏文数据集。
项目目标
-
合成数据质量对标天然数据
- 在词汇、句法、语义与篇章等关键语言特征上,与天然数据保持一致性,差异不显著(统计检验 p > 0.05;同时给出效应量阈值,如
|d| < 0.2 / KL散度低于设定阈值)。 - 通过人工抽检与自动化质量评估双重验证(含流畅性、语法正确性、事实一致性、译文忠实度等指标)。
- 在词汇、句法、语义与篇章等关键语言特征上,与天然数据保持一致性,差异不显著(统计检验 p > 0.05;同时给出效应量阈值,如
-
覆盖多领域、且分布均衡的数据资源池
- 构建覆盖科技、地理、历史文化、教育、公共服务等核心领域的藏文数据集
- 各领域样本数量达到预设规模,并控制长尾领域不过度稀缺
-
覆盖藏族用户高频使用场景的多任务数据类型
- 数据任务类型覆盖:汉藏/藏汉翻译、摘要/要点提取、对话回复、概念解释、问答检索式生成、写作润色/改写等。
-
面向训练与评测的可用性目标
- 合成数据可直接用于主流训练流程(清洗、去重、标注字段、元数据齐全),形成可复用的数据生成与质检流水线。
- 在下游基准任务上带来可量化增益(例如:翻译 BLEU/COMET、问答正确率、摘要 ROUGE 等提升达到预设目标),并提供与“仅天然数据/仅合成数据/混合数据”的对比实验报告。