上海话语音数据需求分解——上海话的定义
上海话语音数据的第一个关键问题在于如何定义上海话。与学术派不同,数据需要考虑准确的同时还需要兼顾习惯,所以我们从采集三维度和标注两词典来考虑上海话的定义标准。
一.采集
- 时间维度
(1)古上海话
是指上海刚开始建立到上海外来移民前的时间,大致从宋朝时期开始,以苏州的吴语为班底。这部分很多流传至今,但因为有些又和现代上海话差异较大,或用的人较少,不主要作为数据的参考依据。
(2)老上海话
是指清末开始上海大发展时期。这一段时间有大量外地移民涌入,其中影响最大例如宁波话,比如现在上海话中常见的“阿拉”实际是宁波话带入。
(3)现上海话
现代上海话是指现代普通话的融入,改变当代上海人的语音习惯(比如“所以”这个词,现代上海人很多就是su xi,但老上海话其实是ge lao)。
- 空间维度
(1)上海城区话
传统老上海市区人所理解的上海话就只针对浦东、浦西和周边较小范围的地区。这一带的上海话较为纯正。
(2)上海地区话
或者可以称为“本地话”,包括传统意义上的上海地区郊区,例如青浦、松江等地的方言时长被当地人认为非上海话。例如:上海部分地区说“廿块钱往里”是指“二十元左右”,但在另一些区域则没有这样的意思。
(3)上海市行政区域话
另外因为上海还包括崇明部分区域,所以若以行政区划来考量,还会包含一些苏北话。例如:老上海话的“我”发音“wu”,而苏北部分地区发音为“en”
(4)类似上海话的非上海区域
因为吴语区发展的问题,苏州大部、无锡郊区、常州小部分和浙北部分区域与传统上海城区话非常相似。
二.标注
- 发音词典
发音词典的主要作用是在算法识别时作为基本输入。这里需要注意,上海话作为一门方言实际有5种音调,需要考虑实际应用中是以官方为准,还是实际上海人自身的习惯,同时需要考虑是否需要将5音调转成更通用的4音调。
另外,所有方言都用的是罗马音,而不是我们汉语拼音使用的英文音,是否需要转换也需一并考量。
- 转写词典
上海话的写法有两种,分别是正确写法和习惯写法。(例如,”我“这个字的发音是wu,通常上海人写成“吾”,但实际上“我”这个字的发音在上海话就是wu,不应该更换。)
另外需要考虑说法和发音的区别。(例如:上海话“讲”的发音是gang,通常被写成了”刚“是不对的。因为上海的”讲“就发音gang,所以就该写成讲,而“你”的说法是“侬”所以需要改写。)