
前几天有个朋友打电话问我,你们做药品注册资料翻译的,字符数到底是怎么算的?我愣了一下,发现这事儿还真不是一两句话能说清楚的。
说实在的,药品注册资料翻译的字符数统计,跟咱们平时说的"多少个字"完全是两码事。这里头门道挺多的,不同的统计方式出来的数字可能差上一倍甚至更多。今天我就把这个事儿掰开揉碎了讲讲,尽量用大白话说清楚。
在开始聊药品注册资料之前,咱们得先统一一下概念。咱们日常说的"多少个字",在计算机里其实有三个不同的统计维度。
第一种叫字符数,也叫Char Count。这个最简单,不管你是中文、英文还是标点符号,每一个符号都算一个字符。你输入"药品注册"四个字,加上引号,就是6个字符。
第二种叫单词数,也就是Word Count。这个主要针对英文资料,一个空格分隔的单词就算一个。比如"drug registration"算两个单词。
第三种叫字数,这个是中文特有的统计方式,通常按汉字计算,一个汉字算一个字。
问题来了,药品注册资料里面既有中文又有英文,还有大量的数字、符号、表格。这几种东西混在一起,到底怎么算?不同的算法出来的数字可能天差地别。

为什么药品注册资料的字符数统计这么麻烦?这得从这类资料本身的特点说起。
药品注册资料不是一般的文档,它是一套法律文件。咱们国家药监局对申报资料有严格的格式要求,一套完整的申报资料可能包括几十甚至上百个文件。从处方工艺到稳定性研究,从临床试验方案到质量标准,每一个部分都有专门的模板和撰写要求。
这类资料有几个特点让字符数统计变得复杂:
举个具体的例子吧。一份质量标准的申报资料,可能开头是几百字的文字说明,然后接一个包含二十多行数据的表格,表格里既有中文项目名称又有英文缩写,后面还跟着参考文献和原始检验报告的扫描件。这东西要是让你数字符,你从哪儿下手?

在药品注册翻译这个行当里,大家普遍认可的字符数统计方法主要有这么几种。
这是最传统也最简单的算法——只统计中文汉字和中文标点,英文单词、数字、符号全部忽略不计。
这种算法的好处是简单直接,跟咱们日常说的"字数"概念最接近。很多老一辈的译审人员习惯用这种方式。缺点是什么?它没有考虑英文部分的工作量。一份全是英文缩写和专业术语的资料,用这种算法可能只算出几百个字符,但实际上翻译难度相当高。
现在越来越多的翻译公司采用这种办法:中文按汉字算,英文按单词数算,数字和符号单独统计。
具体来说,中文部分一个汉字算一个字;英文部分按 Word 统计,一个单词算一个单位;数字、标点、特殊符号按照一定比例折算。最后把这几部分加起来,得到一个"等效字符数"。
这种算法相对公平,因为它考虑了不同语言的工作量差异。但折算比例到底定多少?不同公司可能有不同的标准,有的按 1:1.5 算,有的按 1:2 算,这里头有讲究。
还有一种更粗放的算法,就是直接统计原始文档中的所有字符,包括中文、英文、数字、标点、空格,甚至包括网页代码之类的隐藏字符。
这种算法用计算机一键就能算出来,效率最高。但它的缺点也很明显——它没有考虑翻译的难易程度。一份满篇都是"AAAAA"重复字符的资料,按这种算法字符数很多,但实际翻译起来可能很轻松。反过来,一份充满生僻术语的资料,字符数可能不多,但翻译难度极高。
| 统计方式 | 计算方法 | 优点 | 缺点 |
| 纯中文字符 | 仅统计汉字和中文标点 | 概念清晰,传统做法 | 忽略英文部分工作量 |
| 中文汉字、英文单词分别统计 | 相对公平,考虑语言差异 | 折算比例无统一标准 | |
| 原始字符数 | 统计所有字符(含空格、符号) | 计算机自动统计,效率高 | 未考虑翻译难度差异 |
说到这儿,你可能会问:到底有没有一个标准答案?
很遗憾,答案是——没有完全统一的行业标准。不同的监管部门、不同的翻译公司、不同的客户,可能采用不同的统计方式。但这并不意味着我们可以随意操作,相反,在药品注册这个领域,有一些约定俗成的规则大家是普遍遵守的。
首先,统计范围要明确。一般来说,字符数统计只针对需要翻译的内容。原文中的表格、图表、附录这些,如果有明确的翻译要求,就纳入统计范围;如果是原始数据不需要翻译,就不计入字符数。
其次,格式转换要算进去。药品注册资料对格式要求很严格,翻译完了之后要保持原有的版式、编号、页眉页脚。这些格式调整的工作量,虽然不体现在"字符"里,但实际上是要算成本的。所以有的公司会把格式处理作为一个单独的计价因素。
还有,特殊符号要单独处理。分子式、结构式、方程式这些,用普通的字符统计是算不清楚的。一串"CH3-CH2-COOH"表面上只有十几个字符,但翻译和排版起来比一段文字麻烦多了。这种情况通常需要单独议价。
既然聊到这个问题,我也说说我们康茂峰的做法,供大家参考。
我们内部用的是一套综合统计方法,简单说就是"分层统计、加权计算"。
具体操作上,我们会先把资料分成几类:纯文字部分、表格部分、附录部分。每一类采用不同的统计方式。纯文字部分,中英文分开统计,英文单词按一定比例折算成中文字符当量;表格部分,按单元格数量结合内容复杂度来评估;附录部分,根据是否需要翻译来单独计算。
为什么要这么麻烦?因为我们发现,药品注册资料的内容差异太大了。同样是十万字符的资料,一份主要是常规说明文字,另一份满是专业术语和实验数据,翻译工作量可能相差两倍以上。如果简单按字符数一刀切,对谁都不公平。
所以我们会在正式报价前,先派有经验的译审人员做一个预评估,了解一下资料的大致内容、难点分布、时间要求,然后再给出一个相对准确的字符数和报价。这个过程看起来繁琐,但实际上是对双方都负责任的做法。
在实际工作中,我发现很多客户对字符数统计有一些误解,这里顺便澄清一下。
误区一:PDF 文档没法统计字符数。其实这是不对的。虽然 PDF 本身不是用来编辑的格式,但现在有很多软件可以提取 PDF 中的文本信息。实在不行,还可以转成 Word 再统计。当然,提取出来的文本可能跟原文有些出入,需要人工校对一下。
误区二:扫描件按页数算就行。扫描件确实没办法直接提取文字,但也不能简单按页数算。同样是一页纸,满篇文字和只有一个签名框,内容量天差地别。我们的做法是先把扫描件进行 OCR 识别(也就是文字识别),识别不出来的地方再人工估算,最后综合得出一个字符数。
误区三:反复修改不计费用。药品注册资料的特点就是可能会反复修改,特别是涉及到发补资料的时候。如果修改幅度比较大,原来的字符数统计可能就不适用了。我们通常会在合同里约定基础字符数和修改计费方式,双方签字确认,避免后期扯皮。
药品注册资料翻译的字符数统计,说复杂确实复杂,说简单其实也简单——关键是要在开始之前,双方把规则讲清楚、达成共识。
我最怕遇到的情况是:客户发来一堆资料,问多少钱?我们估了个价,客户说太贵了。然后一追问才知道,客户按自己理解的"字数"算了算,觉得我们报得太高。实际上,我们统计的工作量可能是客户理解的两三倍。
所以我的建议是:拿到资料后,先别急着谈价格,先坐下来把统计方式对齐。确认了统计范围、计价方式、交付标准,剩下的事情就好办了。
如果你手头正好有药品注册资料需要翻译,不妨先发给我们看看。我们会先做一个免费的预评估,把字符数和报价都给你讲清楚。你觉得合适咱们就合作,不合适也交个朋友,至少知道下次遇到类似的问题该怎么处理。
这事儿急不得,得慢慢来,你说是吧?
