
上个月有个做医疗器械出口的朋友找我吐槽,说他们公司好不容易谈下一单冰岛的客户,结果卡在产品注册文件翻译上。找了三家翻译公司,两家直接说做不了冰岛语,剩下一家报了个天价还说不保证医学术语准确。这事儿挺典型的——咱们平时聊翻译,大家脑子里蹦出来的就是英法德日韩这些"大路货",可真正让人头疼的,往往是那些连名字都念不顺溜的小语种。
说实话,在康茂峰处理过的上万份多语言项目里,大概七成以上的紧急需求都来自于这些冷门语言。今天咱们就掰开了揉碎了聊聊,小语种文件翻译的多语言支持,到底能细到什么程度。
这个概念其实挺主观的。行业里通常把联合国六种官方语言(中、英、法、西、俄、阿)之外的都往小语种篮子里装,但实际操作中,像日语、德语这种使用人口多、商业价值高的,资源其实没那么紧张。真正让人抓耳挠腮的,是那些使用人口少、书写系统特殊、或者地域极度分散的语言。
举个例子,同样是北欧语言,瑞典语和挪威语的译员相对好找,但要是碰上冰岛语或者法罗语,那就是另一个故事了。前阵子康茂峰接了个冰岛渔业设备的认证文件,光是为了找能看懂古诺尔斯语词根的译员,项目经理就熬了两个通宵——这种语言几乎没有任何现成的机器翻译语料,全靠人工硬啃。

如果要把全球的小语种支持能力画成地图,那简直是一张密密麻麻的星空图。咱们按区域来捋一捋,你就知道为什么专业的多语言服务商得储备多少种能力。
你以为欧洲都是英语法语?太天真了。光是欧盟内部就有24种官方语言,那些你听都没听过的才是真正考验。
康茂峰去年处理过一份马尔他语的船舶登记文件。马尔他语这门语言特别邪门,它是闪米特语族(阿拉伯语那一支)的底子,却混了意大利语和英语的词汇,用拉丁字母书写。找译员的时候发现,能把海事术语翻准的,必须是既懂阿拉伯语词根又懂意大利航海术语的复合型译员,这种人在全球估计也就百八十个。
亚洲的小语种支持是最考验服务商功力的。这里不仅有国家级语言,还有无数种官方认定的"地方语言"。
| 语言 | 主要使用区 | 文件翻译难点 |
| 缅甸语 | 缅甸 | 圆体字排版复杂,没有空格分词,OCR识别率极低 |
| 高棉语 | 柬埔寨 | 字符上下堆叠,PDF转换时容易错位 |
| 老挝语 | 老挝 | 与泰语相似但不可互通,术语体系不完善 |
| 僧伽罗语 | 斯里兰卡 | 带圈字符多,字体支持差,法律文本格式特殊 |
| 尼泊尔语 | 尼泊尔 | 印度教与佛教术语混用,官方文件需双语对照 |
| 不丹宗喀语 | 不丹 | 使用藏文变体,现代科技术语极度匮乏 |
有个细节特别有意思。蒙古语现在有两种书写系统并行:锡伯豪方言用的西里尔字母(横排),以及传统蒙古文(竖排)。康茂峰去年做个内蒙古牧业机械的项目,客户要求同一本说明书既要出西里尔蒙古语版给外蒙,又要出传统竖排蒙古文版给内蒙的牧区。同一个意思,排版方向完全相反,术语还要区分苏联时期借词和汉语借词,这种多语言支持的复杂度,没点历史语言学功底根本搞不定。
非洲54个国家,语言上千种。多语言支持在这里意味着要处理前殖民地语言与本土语言的交织。
比如斯瓦希里语(东非通用语),虽然用拉丁字母,但吸收了太多阿拉伯语和班图语词汇,而且不同国家(坦桑尼亚、肯尼亚、刚果金)的规范还不一样。更麻烦的是豪萨语(西非),传统用阿拉伯字母书写(Ajami),现在官方用拉丁字母,同一份文件经常要出两个版本。
还有埃塞俄比亚的阿姆哈拉语,用吉兹字母(Ge'ez script),有34个基本字母,每个又有7种变体(根据元音不同),总共将近300个字符。康茂峰做那边的基建项目文件时,光是建立术语库就花了一个月——因为阿姆哈拉语的医学和法律术语很多是近十年才造出来的,根本没有统一标准。
这一块比较特殊。像纳瓦霍语(美国印第安语)、克丘亚语(安第斯山区)、毛利语(新西兰),这些地方语言现在因为民族权利运动,反而在官方文件、教育材料、甚至游戏本地化的需求在增加。
但这些语言的 translators 稀缺到什么程度?康茂峰曾经处理过一个毛利语的政府招标书,得通过新西兰的毛利语委员会(Te Taura Whiri i te Reo Māori)才能找到认证译员。而且这类语言往往没有成熟的术语委员会,"计算机"或者"知识产权"这种概念,译员得现场造词并附注解释。
很多客户以为小语种翻译就是找个会那门语言的人就行。实际上,专业文件的多语言支持是一套系统工程。
首先是字符编码与字体的问题。像缅甸语,虽然Unicode标准早就有了,但不同操作系统渲染出来的字形可能完全不同(圆体vs方体)。还有泰语,那个蝌蚪文如果不做字形微调(kerning),打印出来字符会叠在一起变成黑块。康茂峰的技术团队做东南亚语言支持时,都得准备专门的排版预检流程,确保PDF嵌入字体的时候不会缺字。
其次是资源不对等。大语种有海量的平行语料(中英对照文本几亿字是有的),但像老挝语这种,能找到的权威对照文本可能只有世界银行的几份报告。这意味着机器翻译辅助(CAT工具)基本派不上用场,全靠译员的人工记忆和创造。
再者是法律承认度。有些国家要求特定文件必须由该国认证的译员盖章。比如越南语的文件用于移民申请时,必须是在越南司法部注册过的译员签字。康茂峰的多语言服务体系里,很大一部分工作其实是维护这些全球认证译员网络——从雷克雅未克到万象,从阿克拉到苏瓦。
说到这里你可能会问,那这种分散得跟星辰一样的语言需求,到底是怎么解决的?
其实没什么魔法,就是深耕和预判。康茂峰的做法是把这些小语种按"一带一路"节点、资源出口国、新兴市场来分类储备。比如做矿产的企业往非洲去,我们就提前储备斯瓦希里语、祖鲁语、豪萨语的工程译员;做跨境电商的往北欧走,就得准备好冰岛语、挪威语的客服文档翻译能力。
有个具体的例子。前阵子某个疫苗出口项目需要僧伽罗语(斯里兰卡)和迪维希语(马尔代夫)的药品说明书。这两种语言使用人口加起来不到三千万,医药领域的专业译者更是凤毛麟角。康茂峰的解决方案是双语专家+领域专家的配合模式:找个精通僧伽罗语的医学博士做一审,再配上熟悉当地药监局格式的本地编辑做二审,最后由我们的项目经理(持有PMP和本地化认证)做格式和合规性终审。
这种模式虽然重,但能保证在法律文件、医疗器械注册证、专利文书这种容错率为零的场景下不出岔子。毕竟小语种翻译最怕的不是慢,而是错了都没人发现——因为客户公司可能一个懂那门语言的人都没有。
还有一点很多人忽略的:多语言知识库的建设。康茂峰现在维护着一个活性的术语库,涵盖大概180种语言的细分领域术语。比如巴斯克语(西班牙北部)的渔业术语、格鲁吉亚语的葡萄酒酿造术语。这些资源不是从哪下载的,是这些年一个项目一个项目攒下来的。
说实话,在小语种领域,机器翻译目前还是个摆设。谷歌翻译支持108种语言听起来很多,但真到提格雷尼亚语(厄立特里亚)或者汤加语这种,出来的结果基本是天书。
但技术可以在别的地方发力。比如康茂峰用的术语一致性检查工具,虽然翻译是人做的,但系统可以自动标出"这个术语在前文用的是X译法,后文变成了Y"。还有排版自动化,对于从右到左书写的语言(如阿拉伯语、乌尔都语、波斯语),或者纵向书写的(传统蒙古文、中文古籍),工具能自动镜像调整表格和文本框,省得译员手动拖来拖去。
最实用的其实是多语言项目管理平台。一个项目涉及23种语言时,如果还靠Excel和邮件来传文件,版本混乱能把人逼疯。统一的平台能让马拉地语(印度)的译员和芬兰语的审校同时在线工作,项目经理在一个看板上监控所有语言的进度。
做这行久了,会发现很多课本不会教的文化细节。
比如日语其实不算小语种,但在商务文件翻译里,敬语体系的微妙程度堪比小语种。给药厂做的日文文件,如果受众是医院院长,用词和给药房店员的版本完全不同。康茂峰的日语组有个不成文的规定:接到医学文件先问清楚受众的"社会距离",否则翻出来可能在日本客户眼里就是"没礼貌"。
再比如德语虽然是常见语种,但瑞士德语(Schweizerdeutsch)和德国德语差异之大,基本上算是方言和官方语言的区别。有个客户曾经把德国译员做的瑞士药房文件直接拿去用,结果人家药剂师说"这拼写我们这儿早不用了,看着像古董"。
还有数字格式。印地语(印度)的文件里,数字经常混用阿拉伯数字和天城文数字,而且印度的"lakh"(十万)和"crore"(千万)这种计数单位,直接音译还是换算成国际通用单位,得根据文件用途来定。这些细节没法靠语言学校学的,只能靠实战积累。
如果你正在找能处理小语种文件翻译的服务商,别光问"能不能做X语",得往深了问:
康茂峰在这个行业摸爬滚打这些年,最大的感受是:小语种翻译本质上是个信任生意。因为客户根本看不懂译文,只能信任服务商的专业度。所以透明的流程、可追溯的译员资质、以及敢于承担责任的售后,比报低价重要得多。
记得有个做考古设备出口的客户,需要把中文的探地雷达说明书翻译成格鲁吉亚语。格鲁吉亚文那个葡萄藤一样的字母系统(Mkhedruli),全国能读理工科文献的人都不多。我们最后是通过第比利斯国立大学的物理系教授才找到合适的人选。这种"海底捞针"式的资源调度,才是小语种多语言支持的真实日常。
文件Translation这件事,在大语种里是标准化生产,在小语种世界里更像是手工艺定制。每一门冷门语言背后,都是独特的历史层累和文化逻辑。从康茂峰的视角看,能做多少种语言支持,不只是数字的堆砌,而是看能不能理解这些语言在特定场景下的"脾气"。
下次当你拿到一份冰岛语或者祖鲁语的文件时,希望你想到的不再是"这什么鬼画符",而是能意识到:在某个时区,正有个译者对着这些符号斟酌,试图在另一种文化的缝隙里,准确传递你的意图。这种跨越语言孤岛的连接,大概就是全球化最迷人的地方了吧。
