跳转到内容

泛语语料库

维基百科,自由的百科全书

泛语语料库(Pangloss Collection)是位在巴黎的法国国家科学研究中心(CNRS)口传语言与文化研究所(LACITO)所开发的开放获取数位图书馆,旨在采集世界各种语言的录音(其中大部分为濒临灭绝的稀有语言),汇聚成一个向大众开放的数位语料库,从而为保护世界语言多样性作出贡献 [1] [2]

该语料库有丰富的语音馆藏,可免费线上存取,囊括了世界各大洲不同类型语言的语音文档(民间故事和传说、生活小品、传统艺人或工匠的口述、词汇或语音调查等等)[3]

截至2018年2月,泛语语料库已收录3559卷录音档、影像档、文字文件[4],总计囊括全球170种语言[5]

原则

[编辑]

配有人工转写文字档的语料库

[编辑]

泛语语料库收录并发布第一手录音档(近年来也增加了一些影像档)。其中一部分音档经由专家学者人工转写成文字稿和译文,可与原始音档交互参照(包括语音、音韵、拼字)[6] 。每个文档都是根据口传语言与文化科学研究方法,通过母语人士的亲口讲述,由调查人员在该文化背景下忠实地将内容记录下来[7]

辞典

[编辑]

自2002年以来,除了录音跟影像资料之外,泛语语料库还收录了若干辞典[8] ,并在2017年将辞典系列命名为“ Lexica ” [9]

开放式档案架构

[编辑]

泛语语料库所存档的数据采开源格式,访客可以下载资料原始档案(多数为知识共享Creative Commons许可协定),以便离线使用。资料库网站提供的各式软体工具也属开源软体(开放源代码)。 此外,泛语语料库很早就采用诸如XML等相容性高的格式,此种格式目前为数位人文科学的主流。 [10]

泛语语料库是语言学资料库“ 开放式语言典藏组织”(OLAC[11])的一员,也是DELAMAN濒危语言资料库协会会员之一[12]

泛语语料库乃CoCoON(COllections de COrpus Oraux Numériques)数位资料馆的资料库之一。CoCoON是一个技术平台,旨在支援口语语料采集人员建立、整理、归档语料库。[13] 其典藏的数据储存在“ 数位人文资料存放平台”Huma-Num[14]上。

历史

[编辑]

2001年时,“ LACITO归档方案”收藏了大约20种语言,共100篇左右的长篇语料[15] 。 2011年,泛语资料库的馆藏库收录了近1000卷的长篇语料,涵盖67种语言,总计350篇语料经过转写和注释[16] 。 馆藏在2014年达到1400篇语料,其中大约有400篇已由人工转写和注释[3] 。2016年10月时,泛语资料库典藏了132种语言[17] 。 其馆藏在2018年2月达到170种语言,3559个录音档跟影像档[18] [19] 。2021年,在新一款自动转写软体的帮助下,转写和归档都方便许多,一个小时便可以抵以往上百小时的工作进度。

参考

[编辑]
  1. ^ 语料库官方网页上的介绍. [2021-05-08]. (原始内容存档于2021-11-30). 
  2. ^ 米可. 永宁摩梭话(纳语)长篇语料的记录整理与研究工作. 丽江民族研究. 2012, 5: 36-54 [2024-03-07]. (原始内容存档于2024-02-10) –通过HAL-Science. 
  3. ^ 3.0 3.1 Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135. http://hdl.handle.net/10125/4621
  4. ^ 资料目录页面存档备份,存于互联网档案馆).
  5. ^ 语言目录页面存档备份,存于互联网档案馆).
  6. ^ Jacobson, Michel; Michailovsky, Boyd; Lowe, John B. Linguistic documents synchronizing sound and text. Speech Communication. 2001, 33 (1-2): 79–96 [2017-08-28]. doi:10.1016/s0167-6393(00)00070-4. (原始内容存档于2017-08-28) (english). 
  7. ^ Bouquiaux, Luc & Jacqueline Thomas. 1971. Enquête et description des langues à tradition orale. Deuxième édition 1976. Paris: Société d’études linguistiques et anthropologiques de France.
  8. ^ Jacobson, Michel & Boyd Michailovsky. 2002. Linking linguistic resources: time aligned corpus and dictionary. International Workshop on Resources and Tools in Field Linguistics. Las Palmas.
  9. ^ Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées: Lexica, les dictionnaires de la collection Pangloss. Actes des 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble: Université Grenoble Alpes.
  10. ^ Sylvain Loiseau. La Collection Pangloss : une archive des langues du monde. http://www.inalco.fr/. 2020-01-06 [2020-01-15]. (原始内容存档于2021-01-14) (法语). 
  11. ^ Open Language Archives Community. Open Language Archives Community. Open Language Archives Community. [2021-05-09]. (原始内容存档于2021-12-24). 
  12. ^ Digital Endangered Languages and Musics Archives Network. [5 avril 2020]. (原始内容存档于2021-11-11) (anglais). 
  13. ^ Collections de Corpus Oraux Numériques. [2017-09-11]. (原始内容存档于2018-04-10). 
  14. ^ Huma-Num. [2021-05-14]. (原始内容存档于2022-01-04). 
  15. ^ Jacobson, Michel; Michailovsky, Boyd; Lowe, John B. Linguistic documents synchronizing sound and text. Speech Communication. 2001, 33 (1-2): 79–96 [2017-08-28]. doi:10.1016/s0167-6393(00)00070-4. (原始内容存档于2017-08-28) (anglais). 
  16. ^ Michailovsky, Boyd, Alexis Michaud & Séverine Guillaume. 2011. A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive. Keynote speech at Oriental-COCOSDA 2011, October 26th-28th, 2011. Hsinchu, Taiwan.
  17. ^ Collection Pangloss - FAQ. [2016-11-10]. (原始内容存档于2017-08-04). 
  18. ^ 资料目录页面存档备份,存于互联网档案馆).
  19. ^ “泛语语料库收录了多少种语言?”. [2021-05-08]. (原始内容存档于2021-04-18). 

外部链接

[编辑]