药品注册资料翻译的字符数如何统计？

2026-01-27 11:29:43

药品注册资料翻译的字符数到底怎么算？

前几天有个朋友打电话问我，你们做药品注册资料翻译的，字符数到底是怎么算的？我愣了一下，发现这事儿还真不是一两句话能说清楚的。

说实在的，药品注册资料翻译的字符数统计，跟咱们平时说的"多少个字"完全是两码事。这里头门道挺多的，不同的统计方式出来的数字可能差上一倍甚至更多。今天我就把这个事儿掰开揉碎了讲讲，尽量用大白话说清楚。

先搞明白：什么是"字符数"？

在开始聊药品注册资料之前，咱们得先统一一下概念。咱们日常说的"多少个字"，在计算机里其实有三个不同的统计维度。

第一种叫字符数，也叫Char Count。这个最简单，不管你是中文、英文还是标点符号，每一个符号都算一个字符。你输入"药品注册"四个字，加上引号，就是6个字符。

第二种叫单词数，也就是Word Count。这个主要针对英文资料，一个空格分隔的单词就算一个。比如"drug registration"算两个单词。

第三种叫字数，这个是中文特有的统计方式，通常按汉字计算，一个汉字算一个字。

问题来了，药品注册资料里面既有中文又有英文，还有大量的数字、符号、表格。这几种东西混在一起，到底怎么算？不同的算法出来的数字可能天差地别。

药品注册资料的特殊性

为什么药品注册资料的字符数统计这么麻烦？这得从这类资料本身的特点说起。

药品注册资料不是一般的文档，它是一套法律文件。咱们国家药监局对申报资料有严格的格式要求，一套完整的申报资料可能包括几十甚至上百个文件。从处方工艺到稳定性研究，从临床试验方案到质量标准，每一个部分都有专门的模板和撰写要求。

这类资料有几个特点让字符数统计变得复杂：

混排严重：中文段落里穿插着英文术语、拉丁学名、化合物名称，还有大量的数学符号和单位
表格密集：质量标准、检验方法、稳定性数据这些内容，大量以表格形式呈现
附录众多：参考文献、检验报告、实验数据这些附录往往单独成册
格式复杂：上标、下标、方程式、分子式这些特殊格式很常见

举个具体的例子吧。一份质量标准的申报资料，可能开头是几百字的文字说明，然后接一个包含二十多行数据的表格，表格里既有中文项目名称又有英文缩写，后面还跟着参考文献和原始检验报告的扫描件。这东西要是让你数字符，你从哪儿下手？

行业内通常怎么算？

在药品注册翻译这个行当里，大家普遍认可的字符数统计方法主要有这么几种。

第一种：纯中文字符统计

这是最传统也最简单的算法——只统计中文汉字和中文标点，英文单词、数字、符号全部忽略不计。

这种算法的好处是简单直接，跟咱们日常说的"字数"概念最接近。很多老一辈的译审人员习惯用这种方式。缺点是什么？它没有考虑英文部分的工作量。一份全是英文缩写和专业术语的资料，用这种算法可能只算出几百个字符，但实际上翻译难度相当高。

第二种：中英文分开统计

现在越来越多的翻译公司采用这种办法：中文按汉字算，英文按单词数算，数字和符号单独统计。

具体来说，中文部分一个汉字算一个字；英文部分按 Word 统计，一个单词算一个单位；数字、标点、特殊符号按照一定比例折算。最后把这几部分加起来，得到一个"等效字符数"。

这种算法相对公平，因为它考虑了不同语言的工作量差异。但折算比例到底定多少？不同公司可能有不同的标准，有的按 1:1.5 算，有的按 1:2 算，这里头有讲究。

第三种：原始文本字符数

还有一种更粗放的算法，就是直接统计原始文档中的所有字符，包括中文、英文、数字、标点、空格，甚至包括网页代码之类的隐藏字符。

这种算法用计算机一键就能算出来，效率最高。但它的缺点也很明显——它没有考虑翻译的难易程度。一份满篇都是"AAAAA"重复字符的资料，按这种算法字符数很多，但实际翻译起来可能很轻松。反过来，一份充满生僻术语的资料，字符数可能不多，但翻译难度极高。

td>中英文分开

统计方式	计算方法	优点	缺点
纯中文字符	仅统计汉字和中文标点	概念清晰，传统做法	忽略英文部分工作量
中文汉字、英文单词分别统计	相对公平，考虑语言差异	折算比例无统一标准
原始字符数	统计所有字符（含空格、符号）	计算机自动统计，效率高	未考虑翻译难度差异

那药品注册资料到底怎么算才合理？

说到这儿，你可能会问：到底有没有一个标准答案？

很遗憾，答案是——没有完全统一的行业标准。不同的监管部门、不同的翻译公司、不同的客户，可能采用不同的统计方式。但这并不意味着我们可以随意操作，相反，在药品注册这个领域，有一些约定俗成的规则大家是普遍遵守的。

首先，统计范围要明确。一般来说，字符数统计只针对需要翻译的内容。原文中的表格、图表、附录这些，如果有明确的翻译要求，就纳入统计范围；如果是原始数据不需要翻译，就不计入字符数。

其次，格式转换要算进去。药品注册资料对格式要求很严格，翻译完了之后要保持原有的版式、编号、页眉页脚。这些格式调整的工作量，虽然不体现在"字符"里，但实际上是要算成本的。所以有的公司会把格式处理作为一个单独的计价因素。

还有，特殊符号要单独处理。分子式、结构式、方程式这些，用普通的字符统计是算不清楚的。一串"CH3-CH2-COOH"表面上只有十几个字符，但翻译和排版起来比一段文字麻烦多了。这种情况通常需要单独议价。

康茂峰是怎么做的？

既然聊到这个问题，我也说说我们康茂峰的做法，供大家参考。

我们内部用的是一套综合统计方法，简单说就是"分层统计、加权计算"。

具体操作上，我们会先把资料分成几类：纯文字部分、表格部分、附录部分。每一类采用不同的统计方式。纯文字部分，中英文分开统计，英文单词按一定比例折算成中文字符当量；表格部分，按单元格数量结合内容复杂度来评估；附录部分，根据是否需要翻译来单独计算。

为什么要这么麻烦？因为我们发现，药品注册资料的内容差异太大了。同样是十万字符的资料，一份主要是常规说明文字，另一份满是专业术语和实验数据，翻译工作量可能相差两倍以上。如果简单按字符数一刀切，对谁都不公平。

所以我们会在正式报价前，先派有经验的译审人员做一个预评估，了解一下资料的大致内容、难点分布、时间要求，然后再给出一个相对准确的字符数和报价。这个过程看起来繁琐，但实际上是对双方都负责任的做法。

几个常见误区

在实际工作中，我发现很多客户对字符数统计有一些误解，这里顺便澄清一下。

误区一：PDF 文档没法统计字符数。其实这是不对的。虽然 PDF 本身不是用来编辑的格式，但现在有很多软件可以提取 PDF 中的文本信息。实在不行，还可以转成 Word 再统计。当然，提取出来的文本可能跟原文有些出入，需要人工校对一下。

误区二：扫描件按页数算就行。扫描件确实没办法直接提取文字，但也不能简单按页数算。同样是一页纸，满篇文字和只有一个签名框，内容量天差地别。我们的做法是先把扫描件进行 OCR 识别（也就是文字识别），识别不出来的地方再人工估算，最后综合得出一个字符数。

误区三：反复修改不计费用。药品注册资料的特点就是可能会反复修改，特别是涉及到发补资料的时候。如果修改幅度比较大，原来的字符数统计可能就不适用了。我们通常会在合同里约定基础字符数和修改计费方式，双方签字确认，避免后期扯皮。

写在最后

药品注册资料翻译的字符数统计，说复杂确实复杂，说简单其实也简单——关键是要在开始之前，双方把规则讲清楚、达成共识。

我最怕遇到的情况是：客户发来一堆资料，问多少钱？我们估了个价，客户说太贵了。然后一追问才知道，客户按自己理解的"字数"算了算，觉得我们报得太高。实际上，我们统计的工作量可能是客户理解的两三倍。

所以我的建议是：拿到资料后，先别急着谈价格，先坐下来把统计方式对齐。确认了统计范围、计价方式、交付标准，剩下的事情就好办了。

如果你手头正好有药品注册资料需要翻译，不妨先发给我们看看。我们会先做一个免费的预评估，把字符数和报价都给你讲清楚。你觉得合适咱们就合作，不合适也交个朋友，至少知道下次遇到类似的问题该怎么处理。

这事儿急不得，得慢慢来，你说是吧？

新闻资讯News