查看源代码 Unicode 语法

Elixir 在整个语言中都支持 Unicode。本文档是 Elixir 如何在其语法中支持 Unicode 的完整参考。

字符串（"olá"）和字符列表（'olá'）从 Elixir v1.0 开始支持 Unicode。字符串使用 UTF-8 编码。字符列表是 Unicode 代码点的列表。在这种情况下，内容将按开发人员编写的方式保留，不会进行任何转换。

从 Elixir v1.5 开始，Elixir 还支持变量、原子和调用中的 Unicode。本文档的重点是介绍 Elixir 如何在其语法中允许使用 Unicode 的高级概述。我们还提供了技术文档，描述 Elixir 如何符合 Unicode 规范。

要检查当前 Elixir 安装的 Unicode 版本，请运行 String.Unicode.version()。

简介

Elixir 允许在其变量、原子和调用中使用 Unicode 字符。但是，Unicode 字符必须仍然遵守语言语法的规则。特别是，变量和调用不能以大写字母开头。从现在开始，我们将这些术语称为标识符。

标识符中允许的字符是 Unicode 规定的字符。一般来说，它仅限于当前仍在使用的语言书写系统通常使用的字符。特别是，它排除了诸如表情符号、替代数字表示法、音符等符号。

Elixir 对标识符施加了许多限制，以确保安全性。例如，单词“josé”可以用两种方式用 Unicode 写：作为字符 j o s é 的组合，以及作为字符 j o s e ́ 的组合，其中重音符号是其自身的字符。前者称为 NFC 形式，后者为 NFD 形式。Elixir 将所有字符标准化为 NFC 形式。

Elixir 还禁止大多数情况下使用混合脚本。例如，无法将变量命名为 аdmin，其中 а 为西里尔字母，其余字符为拉丁字母。这样做会引发以下错误

** (SyntaxError) invalid mixed-script identifier found: аdmin

Mixed-script identifiers are not supported for security reasons. 'аdmin' is made of the following scripts:

  \u0430 а {Cyrillic}
  \u0064 d {Latin}
  \u006D m {Latin}
  \u0069 i {Latin}
  \u006E n {Latin}

Make sure all characters in the identifier resolve to a single script or a highly
restrictive script. See https://hexdocs.erlang.ac.cn/elixir/unicode-syntax.html for more information.

该字符必须全部为西里尔字母或全部为拉丁字母。根据高度限制性 Unicode 建议，Elixir 允许的唯一混合脚本是

拉丁语和汉语带注音
拉丁语和日语
拉丁语和韩语

最后，Elixir 还会在同一文件中对可混淆的标识符发出警告。例如，如果您在代码中同时使用变量 а（西里尔字母）和 а（拉丁字母），Elixir 会发出警告。

这就是 Unicode 如何在 Elixir 标识符中使用的整体介绍。简而言之，它的目标是支持当今使用的不同书写系统，同时保持 Elixir 语言本身清晰安全。

有关技术细节，请参阅下一部分，其中涵盖了技术 Unicode 要求。

Unicode 附录 #31

Elixir 实现了 Unicode 附录 #31 版本 15.0 中概述的要求。

R1. 默认标识符

一般 Elixir 标识符规则指定为

<Identifier> := <Start> <Continue>* <Ending>?

其中 <Start> 使用与规范相同的类别，但将其标准化为 NFC 形式（见 R4）

从 Unicode 通用类别的大写字母、小写字母、首字母大写字母、修饰符字母、其他字母、字母数字派生的字符，以及 Other_ID_Start，减去 Pattern_Syntax 和 Pattern_White_Space 代码点。
在集合符号中：[\p{L}\p{Nl}\p{Other_ID_Start}-\p{Pattern_Syntax}-\p{Pattern_White_Space}]。

以及 <Continue> 使用与规范相同的类别，但将其标准化为 NFC 形式（见 R4）

ID_Start 字符，加上具有 Unicode 通用类别非间隔标记、间隔组合标记、十进制数字、连接标点符号的字符，以及 Other_ID_Continue，减去 Pattern_Syntax 和 Pattern_White_Space 代码点。
在集合符号中：[\p{ID_Start}\p{Mn}\p{Mc}\p{Nd}\p{Pc}\p{Other_ID_Continue}-\p{Pattern_Syntax}-\p{Pattern_White_Space}]。

<Ending> 是 Elixir 特有的补充，它仅包含代码点 ? (003F) 和 ! (0021)。

该规范还提供了一个 <Medial> 集合，但 Elixir 不包括该集合中的任何字符。因此，标识符规则已简化为考虑这一点。

Elixir 不允许在标识符中使用 ZWJ 或 ZWNJ，因此不实现 R1a。双向控制字符也不受支持。出于向后兼容性目的，保证 R1b。

原子

Elixir 中的 Unicode 原子遵循上述标识符规则，并进行以下修改

<Start> 还包括代码点 _ (005F)
<Continue> 还包括代码点 @ (0040)

请注意，原子也可以用引号括起来，这允许使用任何字符，例如 :"hello elixir"。所有 Elixir 运算符也是有效的原子，例如 :+、:@、:|> 等。有效原子的完整描述在 "语法参考中的“原子”部分" 中提供。

变量、本地调用和远程调用

Elixir 中的变量遵循上述标识符规则，并进行以下修改

<Start> 还包括代码点 _ (005F)
<Start> 还排除 Lu（大写字母）和 Lt（首字母大写字母）字符

在集合符号中：[\u{005F}\p{Ll}\p{Lm}\p{Lo}\p{Nl}\p{Other_ID_Start}-\p{Pattern_Syntax}-\p{Pattern_White_Space}]。

别名

Elixir 中的别名仅允许 ASCII 字符，以大写字母开头，并且没有标点符号。

R3. Pattern_White_Space 和 Pattern_Syntax 字符

Elixir 仅支持代码点 \t (0009)、\n (000A)、\r (000D) 和 \s (0020) 作为空格，因此不遵循要求 R3。R3 要求支持更多种类的空格和语法字符。

R4. 等效标准化标识符

Elixir 中的标识符区分大小写。

Elixir 将所有原子和变量标准化为 NFC 形式。但是，引号括起来的原子和字符串可以采用任何形式，并且不会被解析器验证。

换句话说，原子 :josé 只能用代码点 006A 006F 0073 00E9 或 006A 006F 0073 0065 0301 编写，但 Elixir 会将其改写为前者（从 Elixir 1.14 开始）。另一方面，:"josé" 可以写成 006A 006F 0073 00E9 或 006A 006F 0073 0065 0301，并且其形式将被保留，因为它是在引号之间编写的。

选择要求 R4 会自动排除要求 R5、R6 和 R7。

Unicode 技术标准 #39

Elixir 符合 Unicode 技术标准 #39 版本 15.0 中概述的条款，该标准关于安全性。

C1. 标识符的一般安全配置文件

Elixir 将不允许使用 \p{Identifier_Status=Restricted} 中的代码点对标识符进行标记。

遵循一般安全配置文件的实现不允许 \p{Identifier_Status=Restricted} 中的任何字符，...

例如，'HANGUL FILLER' (ㅤ) 字符通常是不可见的，它是一个不常见的代码点，会触发此警告。

请参阅下面有关其他规范化的说明，这些规范化可以对某些受限制的标识符进行自动替换。

C2. 可混淆检测

Elixir 将对看起来相同但不同的标识符发出警告。例如：在 а = a = 1 中，两个“a”字符分别是西里尔字母和拉丁字母，可能会相互混淆；在 力 = カ = 1 中，两者都是日语，但代码点不同，属于该书写系统的不同脚本。可混淆的标识符会导致难以发现的错误（例如，由于复制粘贴的代码），并且可能不安全，因此我们将对同一个文件中可能相互混淆的标识符发出警告。

我们使用第 4 节“可混淆检测”中描述的方法，并进行了一项修改

或者，它应声明使用修改，并提供一个精确的字符映射列表，这些列表是在提供的字符映射列表中添加或删除的。

Elixir 不会对仅由 a-z、A-Z、0-9 和 _ 组成的标识符的可混淆性发出警告。这是因为 ASCII 标识符已经存在了很长时间，程序员社区已经有自己的方法来处理诸如 l,1 或 O,0 之类的标识符之间的可混淆性（例如，专为编程设计的字体通常可以轻松区分这些字符）。

C3. 混合脚本检测

Elixir 将不允许对混合脚本标识符进行标记，除非混合是 UTS 39 5.2 “高度限制性”中定义的例外之一。我们使用第 5.1 节“混合脚本检测”中描述的方法来确定是否正在发生脚本混合，并对“其他规范化”部分中记录的修改进行修改。

例如：Elixir 允许像 幻ㄒㄧㄤ 这样的标识符，即使它包含来自多个“脚本”的字符，因为当应用 UTS 39 5.1 中的解析规则时，这些脚本都“解析”为日语。它还允许像 :Tシャツ 这样的原子，它是日语中的“T 恤”，它包含一个拉丁大写 T，因为 {Latn, Jpan} 是 UTS 39 5.2 中“高度限制性”定义中允许的脚本混合之一，并且它“涵盖”了该字符串。

但是，Elixir 将阻止对类似 if аdmin, do: :ok, else: :err 的代码进行标记，其中“a”字符的脚本集为 {Cyrillic}，而所有其他字符的脚本集为 {Latin}。脚本集无法解析，并且 UTS 39 5.2 中“高度限制性”定义中的脚本集也无法涵盖该字符串，因此将显示描述性错误。

C4、C5（不适用）

不主张“C4 - 限制级别检测”的一致性，并且它不适用于代码中的标识符；相反，它适用于将给定任意字符串的安全性级别分类为 5 个限制级别中的一个。

“C5 - 混合数字检测”的一致性不适用，因为 Elixir 不支持 Unicode 数字。

添加规范化和已记录的 UTS 39 修改

从 Elixir 1.14 开始，\p{Identifier_Status=Restricted} 中的一些代码点将标准化为其他不受限制的代码点。

最初，这只是为了将 MICRO SIGN µ 转换为希腊小写 mu，μ。

这不是对 UTS39 条款 C1（通用安全配置文件）或 C2（混淆检测）的修改；然而，它是对 C3，“混合脚本检测”的已记录修改。

混合脚本检测通过这些归一化进行修改，归一化的码点被赋予来自两个字符的脚本集的并集。

例如，在 MICRO => MU 的示例中，Micro 是一个“Common”脚本字符 - 与“_”下划线码点相同的脚本 - 因此归一化字符的脚本集将是 {Greek, Common}。'Common' 与所有非空脚本集相交，因此归一化字符可以在任何脚本编写的令牌中使用，而不会导致脚本混合。
以这种方式归一化的码点是那些在社区中使用的，并且被判断不太可能导致不安全的脚本混合问题。例如，MICRO 或 MU 码点可以用于处理微秒的原子或变量。

← 上一页类型规范参考