|
亚洲具有重要历史价值的语言,大多都与中文有过接触,这些语言的词汇现在已收录进一个大型语言资料库(语料库)中。这个在东亚首创的语料库包括99种汉藏语系的语言和方言,每种都保存了超过1,000个词语。
|
孙教授正在研究中国四川的尔苏语,一种约有2万人使用的语言 |
语料库内的语言
|
(1) 藏缅语系:包括很多语言,如彝语(中国云贵川)、藏语、塔芒语(尼泊尔)、缅语和克伦语(缅甸)。
|
(2) 苗瑶语系:中国苗族和瑶族所用语言。 |
(3) 侗傣语系:包括泰语、老挝语及一些中国语言,如黎语(海南)、侗语(贵州)及壮语(广西)。 |
(4) 汉语 |
(5) 南亚语系:包括佤语(中国及缅甸)和莽语(中国及越南)。 |
(6) 南岛语系:包括泰雅语及排湾语(台湾),及他加禄语(即菲律宾语)。 |
(7) 学者构拟的古代读音 |
|
这些语言大部份使用于东亚及东南亚地区,有些已濒临失传。
比如中国四川的却域语,目前只有7,000人在使用。语料库也包括学者构拟出来的原始汉藏语的读音,就是这种史前的语言后来演变为各种汉藏语言。
首席研究员香港科技大学人文社会科学学院前院长丁邦新教授说,语料库对语言学家有很大的用处,而且保存了未经挖掘的语言历史。
研究项目的一个主要目标,是找出各种语言间的亲属渊源关系。丁教授指出,研究的重要结论之一,是证实包括泰语、老挝语及中国广西的壮语在内的台语,极可能属于汉藏语系。
他说:「在此之前,汉语与台语的相关词汇是出于同源还是语言接触的结果,还没有定论。现在我们相信,两个语族是来源于同一种远古语言,也就是说有亲属关系。」
另一个论点是苗瑶语族很可能属于汉藏语系,但丁教授表示这仍有待更多的研究和证据,才能下定论。语料库的词汇,来自超过一百
个地点的语言,主要是由北京中国社会科学院的人员在过去四十年调查、搜集得来,其中包括项目的合作研究员孙宏开教授。
语料库是用FoxPro软件的中文版编写而成,现在也可以将查寻的结果输出为MS
Word及Excel档。未来的计划包括在今年内制成网络版本,让用户从互联网查询。
目前,语料库已安装于北京
和台北的学术机构和香港科大,使用者可在七大类语言和方言(见附表)中搜寻词语,也可以通过中、英文意义或国际音标进行搜寻。
丁教授补充说,学者是通过比较现代语言推测远古最可能的读音形式,从而构拟出6,000年前的先祖语言(语言学家称为「原始母语」)。
首席研究员
丁邦新教授:shphting@ust.hk
|