defines the range of attribute values used to identify a particular combination of human language and writing system. 인간의 언어와 문자 체계의 특별한 조합을 식별하는 속성 값 범위를 정의한다. 定義的屬性值範圍標明人類語言與寫作系統的特殊結合自然言語を示す属性値の範囲を定義する． définit la gamme des valeurs d'attributs exprimant une combinaison particulière du langage humain avec un système d'écriture. define la gama de valores de atributos usados para identificar una combinación determinada de lenguaje y escritura humanos. definisce la gamma di valori di attributi usati per identificare una determinata combinazione di linguaggio e sistema di scrittura umani

The values for this attribute are language tags as defined in BCP 47. Currently BCP 47 comprises RFC 5646 and RFC 4647; over time, other IETF documents may succeed these as the best current practice.

A language tag, per BCP 47, is assembled from a sequence of components or subtags separated by the hyphen character (-, U+002D). The tag is made of the following subtags, in the following order. Every subtag except the first is optional. If present, each occurs only once, except the fourth and fifth components (variant and extension), which are repeatable. languageThe IANA-registered code for the language. This is almost always the same as the ISO 639 2-letter language code if there is one. The list of available registered language subtags can be found at . It is recommended that this code be written in lower case.scriptThe ISO 15924 code for the script. These codes consist of 4 letters, and it is recommended they be written with an initial capital, the other three letters in lower case. The canonical list of codes is maintained by the Unicode Consortium, and is available at . The IETF recommends this code be omitted unless it is necessary to make a distinction you need.regionEither an ISO 3166 country code or a UN M.49 region code that is registered with IANA (not all such codes are registered, e.g. UN codes for economic groupings or codes for countries for which there is already an ISO 3166 2-letter code are not registered). The former consist of 2 letters, and it is recommended they be written in upper case; the list of codes can be searched or browsed at . The latter consist of 3 digits; the list of codes can be found at .variantAn IANA-registered variation. These codes are used to indicate additional, well-recognized variations that define a language or its dialects that are not covered by other available subtags.extensionAn extension has the format of a single letter followed by a hyphen followed by additional subtags. These exist to allow for future extension to BCP 47, but as of this writing no such extensions are in use.private useAn extension that uses the initial subtag of the single letter x (i.e., starts with x-) has no meaning except as negotiated among the parties involved. These should be used with great care, since they interfere with the interoperability that use of RFC 4646 is intended to promote. In order for a document that makes use of these subtags to be TEI-conformant, a corresponding language element must be present in the TEI header.

There are two exceptions to the above format. First, there are language tags in the IANA registry that do not match the above syntax, but are present because they have been grandfathered from previous specifications.

Second, an entire language tag can consist of only a private use subtag. These tags start with x-, and do not need to follow any further rules established by the IETF and endorsed by these Guidelines. Like all language tags that make use of private use subtags, the language in question must be documented in a corresponding language element in the TEI header.

Examples include snShonazh-TWTaiwanesezh-Hant-HKChinese written in traditional script as used in Hong Kongen-SLEnglish as spoken in Sierra LeoneplPolishes-MXSpanish as spoken in Mexicoes-419Spanish as spoken in Latin America

The W3C Internationalization Activity has published a useful introduction to BCP 47, Language tags in HTML and XML.

当該属性値は， BCP 47 で定義されている言語タグになる．現行のBCPには，RFC4646とRFC4647の内容が含まれている．今後は，他のIETF文書も採用されるかもしれない．

BCP 47にある言語タグは，ハイフン (-, U+002D)で区切られた一連の下位タグから構成されている．下位タグは，以下の順番らなる．下位タグは，初めの1つは必須で，あとは選択的である． variantとextensionは複数回，他は1回のみ出現出現する．この下位タグのグループは繰り返し可能である． language IANAの言語コード．この殆どは，該当言語が既にあれば，ISO 639の2文字 (以下，この場合の文字はラテン文字)言語コードと同じである．利用可能な言語下位タグのリストはにある．言語コードは，小文字で書かれることが推奨されている． script ISO 15924による文字を示すコード．4文字から構成され，冒頭文字は大文字で，残り3文字は小文字で書かれることが推奨されている．このコードは，ユニコードコンソーシアムで管理され，から入手することができる．IETFでは，不要であれば当該コードを省略することを推奨している． region ISO 3166またはUN M.49による国または地域コード．このコードはIANAに登録されている(但し全てではない．例えば，UNコードには経済圏や， ISO 3166の2文字コードで既に登録されているところは含まれていない)． ISOコードは，2文字から構成され，大文字で書かれることが推奨されている．このコードは，にある．またUNコードは，3文字から構成されている．このコードは，にある． variant IANAにある登録値．このコードは，他の下位タグでは対応できない，追加的であるがよく知られている，ある言語や方言の種類を示すために使用される． extension いち文字，ハイフン，追加下位タグの順番で，拡張情報が示される．これは，BCP 47が将来拡張された時のためある．現時点ではそのような拡張はない． private usexXで始まる(すなわち，x-)下位タグで示される拡張情報は，関連する団体間で決められた範囲の意味を持つ．このコードは大文字で書かれるべきである．これは，RFC4646aで使われているタグとの相互運用性を保つためである．このタグを使用してTEI準拠の文書を作成するには，要素 languageをTEIヘダー中に記述しなければならない．

上記記述形式には，2つの例外がある．ひとつは，ここにある言語タグは， IANAにある統語規則に違反しているものがある．これはIANAでは昔の規定を継承しているからである．

ふたつめは，言語タグを，下位タグprivateだけで構成することができることである．x-で始まるタグの内容は，IETFにある規定にも当該TEIガイドラインにある規定にも従う必要はない．他の言語タグと同様に，このタグを使用した場合には，TEIヘダーにある要素 languageにこのタグを記述しなければならない．

言語コードには，以下のようなものがある． snショナ語zh-TW中国語，台湾zh-Hant-HK中国語，繁体字，香港en-SL英語，シエラレオネ共和国plポーランド語es-MXスペイン語，メキシコes-419スペイン語，ラテンアメリカ

W3Cの国際化活動では，BCP 47の解説を以下に用意している． HTMLとXMLで使用される言語タグ.

Les valeurs pour cet attribut sont les étiquettes de langue définies dans la norme BCP 47. Actuellement, la norme BCP 47 intègre les normes RFC 4646 et RFC 4647 ; à l'avenir, d'autres documents de l'IETF pourront leur succéder en tant que meilleure pratique.

Une étiquette de langue, pour la norme BCP 47, est formée par l'assemblage d'une suite de composants ou de sous-étiquettes reliés par un trait d'union (-, U+002D). L'étiquette est composée des sous-étiquettes suivantes, dans l'ordre indiqué. Chaque sous-étiquette est facultative, à l'exception de la première. Chacune ne peut avoir qu'une occurrence, sauf les quatrième et cinquième (variante et extension), qui sont répétables. langueCode de langue enregistré par l'IANA. Il est presque toujours identique au code de langue alphabétique ISO 639-2, s'il y en a un. La liste des sous-étiquettes de langue enregistrées est disponible à : Il est recommandé d'écrire ce code en minuscules.écritureCode ISO 15924 pour l'écriture. Ces codes sont constitués de 4 lettres, et il est recommandé d'écrire la première lettre en majuscule, les trois autres en minuscules. La liste canonique des codes est maintenue par le Consortium Unicode, et elle est disponible à : . L'IETF recommande d'omettre ce code, sauf s'il est nécessaire pour établir une distinction.régionSoit un code de pays ISO 3166, soit un code de région UN M.49 enregistré par l'IANA (tous les codes de ce type ne sont pas enregistrés : par exemple, ne sont pas enregistrés les codes UN pour des regroupements économiques ou les codes de pays pour lesquels il existe déjà un code de pays alphabétique ISO 3166-2). Le premier est constitué de 2 lettres, et il est recommandé de l'écrire en majuscules. La liste des codes est disponible à : . Le second est constitué de 3 chiffres ; la liste des codes est disponible à : .varianteVariante enregistrée par l'IANA. Ces codes sont utilisés pour indiquer des variantes additionnelles et bien établies, qui définissent une langue ou ses dialectes et qui ne sont pas couverts par d'autres sous-étiquettes existantes.extensionUne extension a la forme d'une lettre unique, suivie d'un trait d'union, lui-même suivi de sous-étiquettes additionnelles. Ces dernières existent pour tenir compte d'une future extension de la norme BCP 47, mais à l'heure actuelle de telles extensions ne sont pas utilisées.usage privéUne extension utilisant la sous-étiquette initiale de la lettre x (i.e., commençant par x-) n'a pas d'autre signification que celle négociée entre les parties impliquées. Ces sous-étiquettes doivent être utilisées avec beaucoup de prudence, car elles interfèrent avec l'interopérabilité que l'utilisation de la norme RFC 4646 vise à promouvoir. Pour qu'un document qui utilise ces sous-étiquettes soit conforme à la TEI, un élément language correspondant doit être présent dans l'en-tête TEI.

Il y a deux exceptions au format ci-dessus. Premièrement, il y a des codes de langue dans le registre de l'IANA qui ne correspondent pas à la syntaxe ci-dessus, mais qui sont présents car ils ont été hérités de spécifications antérieures.

En second lieu, une étiquette complète de langue peut consister seulement en une sous-étiquette d'usage privé. Ces étiquettes commencent par x- ; il n'est pas nécessaire qu'elles suivent les autres règles établies par l'IETF et acceptées par les présents Principes directeurs. Comme toutes les étiquettes de langue qui utilisent des sous-étiquettes d'usage privé, la langue en question doit être documentée dans un élément correspondant language dans l'en-tête TEI.

Les exemples incluent :snShonazh-TWTaïwanaiszh-Hant-HKChinois de Hong Kong écrit dans l'écriture traditionnelleen-SLAnglais parlé au Sierra LeoneplPolonaises-MXEspagnol parlé au Mexiquees-419Espagnol parlé en Amérique latine

La W3C Internationalization Activity a publié une introduction à la norme BCP 47 dont la lecture peut être utile : Language tags in HTML and XML.