中国民间文化遗产抢救工程——中国口头文学遗产数据库简介

   刊发时间:2015-07-09  

给中国口头文学遗产安个“家”——几代民间文艺工作者近百年来愿望终于实现了。

中国民间文艺家协会(以下简称中国民协)主席冯骥才说:“中国民间文艺家协会组织专家学者甄别、筛选和知识加工,总计8.878亿字……编制完成‘中国口头文学遗产数据库’。这将成为中华民族重大的、珍贵的、永恒的记忆。”

为此,冯先生向中国国家档案局推荐中国口头文学遗产申报“中国文献遗产”,进而申报“世界记忆遗产名录”。以使这一巨型的中华民族精神文化财富,进入人类文明宝库,永存并永享。

一、数据库一期建库过程  

中国口头文学遗产数据库一期建库经过四个时间节点:

2009年2月,冯骥才主席策划、组织对项目论证。

2010年12月31日,在北京人民大会堂,召开了中国口头文学遗产数据库启动仪式,自此开启了口头文学数千年尘封记忆,踏上了建设民间文艺数字化“四库全书”的征程。

2013年12月2日,中国民协数据库工作组、中国汉王科技有限公司项目组,向数据库专家委员会提交数据库一期项目验收报告。专家组经过评审,通过了数据库验收报告。

2014年2月28日,在北京中国文联文艺家之家会议厅召开了中国口头文学遗产数字化工程(一期)成果发布会。

至此,凝结了几代民间文艺工作者近百年心血,迄今为止人类最大的口头文学遗产数据库呈现在世人面前。    二、数据库一期资料来源

数千年来,华夏民族创造了浩如烟海的口头文学。在历史长河里,我们的祖先留下了数以万计的脍炙人口的口头文学作品,经历一代一代人口口相传、生生不息的打磨洗礼,成为厚重的文化经典和文化遗产。

近六十年来,大陆文艺界对中华民族口头文学进行了三次大规模搜集整理和文本存录工作。分别为五十年代、八十年代和本世纪初启动的中国民间文化遗产抢救工程。这三次调查与搜集的口头文学资料,弥足珍贵。其中,八十年代组织的故事、歌谣、谚语(统称为三套集成)搜集整理工作,在全国两千八百多个县同时展开,动员了几十万人,历时十余年,最终整理了100余册的省卷本。由于条件所限,当时搜集整理的万余册县卷本和乡镇卷本,只有极少部分正式出版发行,大量的手抄本、油印本散落于民间,没有公开出版发行,处于自生自灭的状态,有些已经丢失。八十年代以前散落丢失口头文学资料更是不计其数。

中国口头文学遗产数据库一期收录的资料近5000册。主要是中国民协资料室留存的,以84年至90年间各地民间文艺工作者搜集的县卷本、乡镇卷本为主的三套集成,近4000余册。还有少量的20年代至70年代珍贵的资料。
    一、数据库一期的成果、构成、特点

中国口头文学遗产数据库工程一期成果:

中国口头文学遗产数据库一期收录资料4905册8.878亿字。

1. 完成了8.878亿字的数据加工,形成为TIF、PDF、TXT三种数据格式,文字差错率低于万分之一;

2. 完成了检索软件的制作;

3. 完成了知识加工的一级分类;

4. 完成了用Flash动画形式概况中国民间文艺工作者百年来对口头文学遗产挖掘、整理的历程;

5. 完成了数据库文档多种形式的备份;

6. 按照国家图书馆标准对4905册资料进行了分类整理;

7. 数据库一期建设过程的档案材料编撰41册。

中国口头文学数据库一期由两部分构成:

1、资料库:资料库现存一万余册口头文学资料和数据建库档案两部分内容。其中一期数据库资料4905册,按照国家图书馆标准进行了分类整理。每册书进行了编码,3—5册资料装入一个函套,函套上标注了装入资料书目等信息。一期资料的内容涵盖了全国30多个直辖市、省、自治区,56个民族。

2、电子库:一期电子库有三部分:

一是数据加工8.878亿字,最终的成果物为TIF、PDF、TXT三种数据格式,文字差错率低于万分之一;

二是检索发布系统软件的制作;

三是知识加工之一级分类。专家将100余万篇(条)按照神话等11个类别进行了分类。数据库经过专家的知识加工(一、二级分类),极大方便了读者的使用,使数据库更具有学术性和专业性。

数据库一期的特点:

1、唯一性:全国独有,规模最大;

2、珍贵性:大部分为没有公开出版;

3、单一性:全部为口头文学的内容;

4、全面性:囊括56个民族的口头文学作品;

5、专业性:专家在数据加工的基础上进行了知识加工;

6、两种保存方式:

纸质资料本按国家标准进行编目存放;

全文转换后数据的保存形式为原版图像、TXT文本、双层PDF。

四、数据库二期展望

在一期数据库建设进展期间,我们感到一期数据库收录的资料远远不够,又开始了二期数据库资料的征集工作。两年来,已经征集有效资料5000余册,约9亿字,计划将这些资料作为二期数据库的录入资料,进行加工整理。

中国口头文学遗产数据库是一个系统工程。数据库二期由两个子课题七个分项组成:

1. 资料库建设:

(1)增量100%:在一期资料库的基础上将口头文学资料增加到一万册;

(2)扩容30—50%:增加口头文学相关衍生领域的内容,即通过补充与口头文学相关的理论研究和田野调查资料等内容来扩展原先单一的口头文学库;

2. 电子库建设;

将一期资料库增量的资料全部进入数据库:

(3)数据加工:计划新增文字录入9亿字;

(4)知识加工:提高专业、学术性,将神话等十一个类别进行二级分类;

(5)增加内容:扩容、录入口头文学相关衍生领域的资料;

(6)数据库系统的完善和升级:即提高数据库使用的适用性、稳定性,开发相关软件的数据分析、互联网版权保护和发布功能;

(7)数据库维护与备份:建立数据库备份和恢复机制以保障数据的安全。
随着时间的推移,征集资料工作越来越难、越来越紧迫,但是我们认为也越来越重要,这是一个利在当代、功在千秋的重大工程,意义重大。

我们的目标是:通过三、四年的努力,征集的资料达到2万余册40亿字,最终完成三期或四期数据库建设。

结束语:

台湾民间和大陆民间一样蕴藏着丰富的口头文学资源。近百年来,台湾的民间文艺工作者深入田野同样收集整理了大量珍贵的口头文学资料。让两岸民间文艺工作者携起手来,共同努力,共建中华民族新的四库全书、文化长城,共创辉煌,使口头文学这一巨型的中华民族文化财富,进入人类文明宝库,永存并永享。

(本文是2015年5月23日,中国民协副秘书长吕军在台北市阳明山中国文化大学晓峰纪念馆,与中国文化大学中文系合办[2015海峡两岸民间文学与通俗文学学术研讨会]会上的发言)