读者QQ群②:190771709,投稿请发dashuju36@qq.com
我要投稿

大数据:连接方言的过去、现在和将来

36大数据

作者:唐棣

普通话是语言的最大公约数。——汪曾祺

在一个越来越统一的世界里,地方性是迷人的。 侯宝林有一段著名的相声《戏剧与方言》,说住一个院子的兄弟二人,一人起夜,惊动另一人。北京话啰唣,“哟嗬!黑更半夜,这是谁出来啦?一声不言语,怪吓人的!”“啊,是我,您哪,哥哥,您还没歇着哪?我出来撒泡尿。没有外人,您歇您的吧,甭害怕,您哪”;河南话则极简练:“谁?”——“我。”“咋?”——“尿。”就四个字。 语言是人类最接近神迹的创造,打破孤独,捏合族群。为了不使地上的巴别塔建起,神变乱了人们的口音——显然,发射人造卫星神倒没什么意见。到了互联网时代,全球差距迅速缩小,日常习惯逐渐趋同,口音和地域的特色反而更被放大调侃。调侃也多是善意,比如胡建人“发发发发”的笑,东北的池塘“不样钓鱼”,北京国贸的“装垫儿台”等等。

人总归该有属于自己的语境。山东高密之于莫言,陕西白鹿之于陈忠实,或者南美小镇马孔多之于马尔克斯,甚至曼哈顿之于凯莉·布雷肖——日暮乡关何处是,语音的参差就像“门钥匙”,教人不需过分用力,就可打通现实和过去,甚至加入进未经历过的时空。

普通话好,某种程度上代表了官方的好仪态,一种政治正确。 车同轨,书同文,可惜话很难同音,语言之幕长久存在。康熙时内廷多说满语,和东北话相似度很高,康熙的东北口音估计比张学良还重,从其批阅的奏折上就可看出一二。如“解京又费一凡事,不如存库”,这其中“费一凡事”,实为“费一番事”,用东北话默诵一下,入味三分;百年后也无甚起色,梁启超谒光绪帝,本来倚马千言、著作等身的大学者,吃了广味普通话的亏,满腹经纶倒不出来,操北京话的皇帝和他鸡同鸭讲了一会儿,草草结束,只封了康一个六品小官。变法大事,囿于普通话不行。36大数据(http://www.36dsj.com/)

直到“zhen华人民共和gue、zhen央人民政府,今天成立咯”后,身份和户籍的区分前所未有的加强,但普通话正音却得到了大力推行。固然是件好事,方便交流,大家开始习惯区分平舌音、翘舌音、前鼻音、后鼻音,春晚小品也以方言做笑料的根源,有口音显得不那么“上台面”,反乡音成了“反落后”。

36大数据

乡音无改鬓毛衰。如果你是一个有方言的人,那必定很能体会到乡音的式微,是落花流水般不可抗的归化。普通话越来越占据了主导,方言在慢慢发生着轻便、小规模的变化——普通话的演进,也是城市化进程中,人物与微观视角集合提取的样本。

36大数据

到底,语言用来交流,口音算是审美范畴。细致一点,是话语权的确认。革命剧里伟人往往说的是南腔北调的家乡话,在一群标准普通话的小战士里,用方言的伟人显得特别人性化;而大城市土著,也会对本地方言极为自豪,觉得普通话并不怎么要紧。36大数据(http://www.36dsj.com/)

过去心不可得,现在心不可得,未来心不可得。36大数据(http://www.36dsj.com/)

方言之生动,令端庄的普通话远远不及。 十里不同音,不同地区特有的语序、词汇、平上去入,方言的陌生化能造出丰富细微的表达效果。口语化的天生韵律,本身就富于节奏感,跟大环境的普通话相较,大概算是“反差萌”。 更别说有些方言已被赋予了“天然”个性。川音悠扬,吴音清切,天津的“哏儿”,山东的鲁直,沪上的精打细算。柳郎中词,只好十七八女郎按执红牙拍,歌杨柳岸晓风残月;学士词须关西大汉,执铁绰板,唱大江东去。 没有哪种语音是空洞的,公众人物怎么讲话,也大有讲究。湘云娇憨,叫宝玉“爱哥哥”;刘亦菲武汉生人,普通话说得很好,毕竟神仙姐姐高来高去,张嘴“锅标子养滴”准会有点出戏;文章是陕西人,却和local张一山、大张伟一样一口京腔,应该是如果人设里都带着点“不忿儿”,用上北京话效果拔群;换了形象现代的章子怡、杨幂等京籍女明星,则听不出什么地域性。36大数据(http://www.36dsj.com/)

也正因为这样,方言中蕴含了本体性和时代性如何共处的大命题。《甜蜜蜜》格格不入的黎小军,《立春》渴望被承认的王彩玲,《路边野餐》黔东南凯里的医生陈升,用方言和普通话间对立的张力,勾连起主流与边缘的互相抵牾与理解。

36大数据

语音的流传充满了历史的偶然,现代人穿越回去,估计要被当蹩脚的外国细作捉起来。

每一种方言都是活化石,有自己独立的语言系统、发音标准以及独特的地方文化特色。“当全国的语言有声数据库完全建成之后,我们可以通过这些词汇,来系统完整的梳理对比全国各地方言的特色。”中国语言资源有声数据库山东库的核心专家组成员之一的岳立静教授这样表示。

建立方言数据库,意义不仅在于方言的保护,更是互联网时代中,人机语言交互质的演进。36大数据(http://www.36dsj.com/)

不知你是否记得一段关于拨叫13581887557的笑话,主人山东大汉,跟车载智能语音系统沟通无能,急出汗来。事实上,语音识别技术已经存在了5年多的时间,虽然它的早期应用——比如语音拨号或者桌面词典——不如现在的虚拟代理和智能家具设备一样看起来这么性感。 想要实现重大突破,语音识别就要基于大数据平台的计算能力提升。传统的语言识别技术,必须把建模单元分成多个独立的状态,而使用整体建模,模型的单元就可以采用声韵母、音素、音节,甚至能够相互混合,如同很多说普通话的人也会中英文并用一样,在多语言环境中实现翻译。

谷歌已经重建了它的语音识别系统。新引入的云语音API为开发者提供了可以在任意App中将语音转化为文本的功能。据谷歌描述,云语音API 能在各种各样嘈杂的环境中工作,并且能够识别超过80种语言和方言。 作为本土最大的搜索引擎,百度也已经搜集了数千小时的普通话语音数据,这为他们最新的语音识别引擎 Deep Speech 2 提供了很多数据。百度称,截止今年2月,Deep Speech 2 最近公布的短语错误率为3.7%,而谷歌在一年前公布的错误率约为8%。

末了,语言也不过是沟通的工具,无论普通话还是方言,硬要纠结口音的“纯粹性”,就同玩“親不见,愛无心”的文字游戏一样刻板复古。

只要能说到心坎上,就是最好的语言。36大数据(http://www.36dsj.com/)

End.

转载请注明来自36大数据(36dsj.com):36大数据 » 大数据:连接方言的过去、现在和将来

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址