语料库地址:https://icc.pku.edu.ch/corpus/index

备用语料库地址:http://39.106.255.42/corpus/index/

项目背景

国家社科基金重大项目“构建人类卫生健康共同体研究与数据库建设” (项目批准号:21ZDA130)

子课题:人类卫生健康共同体话语体系建构(北京大学新闻与传播学院许静教授)。

语料库开发团队

指导老师:高志军

学生小组:

  • 帅兵(组长)
  • 胡洋
  • 梁泽鹏

项目意义:

  1. 分析中国对外卫生援助的新闻话语变化 中国的对外卫生发展援助是中国对外援助的重要组成部分,也是中国承担国际义务与彰显大国实力的表现。建立对外卫生援助语料库,能够为中国对外卫生援助的新闻话语变化的研究提供丰富的素材,进一步加强人类卫生健康共同体话语体系建构。
  2. 为其他有类似研究需要的学者提供基础资源和分析工具 外交学专门领域的数据库资源十分有限,该语料库不仅能够为卫生外交领域提供翔实的数据支持与分析工具,并且尝试提供探索中国参与全球治理、中国多边外交发展的独特视角,同时能为话语体系建设提供一种量化研究思路,促进中国对外传播发展。

资源:

  1. 1945-2022年间人民日报历时新闻
  2. 卫生援助子库
  3. WHO 中跟中国有关的新闻报告

语料分析工具 V1.0:

  1. 基础语料库功能
a. 词频与高频词统计:统计语料中前n个(n可由用户设定)出现频率高的词语,返回对应的高频词及出现次数。 b. 主题词分析:用户可通过指定年份,查看特定年度卫生外交主题词。 c. 关键词语境分析:用户可通过输入关键词,查看该词的上下文语境。例如,输入“抗疫”即可获取卫生外交报道中与“抗疫”的上下文。 d. 词语搭配分析:用户可通过输入关键词,查看该词的前后词语搭配。例如,输入“提供”即可获取与其搭配的主语、宾语等词汇。
  1. 外交特色研究 a. 外交客体识别:经处理的语料能够对外交客体进行标注,用户可通过输入指定时间段,查看中国卫生外交客体变化。 b. 双边及多边合作分析:通过实体共现关系,用户可通过输入指定时间段,获取中国与不同国家及国际组织合作的紧密程度。

开发计划:

  1. 语料收集(2022年12月1日)

  2. 语料分析工具开发 12月10日:完善前端功能界面,完成前后端数据连通; 12月15日:实现已有界面的访问与基本功能的使用。

参考资料

类似语料库

通用语料

可视化

中国特色话语

术语库

项目