5.4. 中国語読み調整テキスト
5.4.1. 中国語読み調整テキスト概要
中国語読み調整テキストは、ピンイン (pinyin) と声調番号による発音表記に、ポーズ、文末トーンなどの情報を付与したものです。
例えば、 我小时候打了棒球。
という北京語テキストは、以下のように中国語読み調整テキストに変換されます。
入力テキスト:
我小时候打了棒球。
読み調整テキスト:
wo2 xiao3.shi2.hou5 da3 le5 #P.#bang4.qiu2
.
: 音節の区切りを示します。#P.#
: 句読点を示す拡張記号です。1
〜9
: 声調番号です。それぞれの音節記号(ピンイン)の後に必ず付与する必要があります。- それ以外(
wo
,xiao
,shi
...): 音節記号(ピンイン)です。
構成規則および各要素の詳細については次節以降を参照して下さい。
5.4.2. 構成規則
中国語読み調整テキストの規則を ABNF で示します。
読み調整テキスト = 文頭情報 単語情報 *(単語間情報 単語情報) 文末情報
; 読み調整テキストは、複数の文の集合体です。また、空文字列も受領されます(ただし、再生時にエラーとなります)。
文頭情報 = *単語境界 [識別子P,T拡張記号]
単語情報 = *(発音記号 音節境界) 発音記号
単語間情報 = *単語境界 (単語境界 / ポーズ記号 *単語境界 [識別子P,T拡張記号] / [識別子P,T拡張記号])
文末情報 = *単語境界 / 識別子E拡張記号
発音記号 = 音節記号 声調番号
声調番号 = 1 / 2 / 3 / 4 / 5 / 6 / 7 / 8 / 9
音節境界 = .
単語境界 = SP
ポーズ記号 = --
定義にない文字入力に対しての動作は、保証しません。
制御タグ 、 声調番号 、音節記号 、識別子P,T拡張記号 については以下を参照して下さい。
5.4.3. 制御タグ
中国語読み調整テキストでは、制御タグにより米語を混在させることができます。
#P,#jian2.suo3 -- dao4 fu4.jin4 #P,#de5 <voice xml:lang="en-US"> "sE.v@n #P.#I."lE.v@n#E\#</voice>
中国語読み調整テキストで使用できる制御タグは、言語指定タグ <voice>
のみです。言語指定タグ <voice>
については 6. 制御タグ を、米語の読み調整テキストについては 5.3. 欧米言語読み調整テキスト を参照して下さい。
5.4.4. 声調番号
中国語では、音の高低パターンによって単語の意味が異なり、この高低パターンを声調と呼びます。本サービスでは、以下のように声調に対して番号を定義しており、読み調整テキストではピンインと合わせて声調番号を指定する必要があります。また、本サービスでは「軽声」(声調を伴わず、軽く発声する)も、声調番号 5
としてこれも声調として扱います。
声調番号 | 説明 | 例1 | 例2 |
---|---|---|---|
1 |
high level or high falling | 分 (fan1 ) |
詩 (si1 ) |
2 |
mid rising | 粉 (fan2 ) |
史 (si2 ) |
3 |
mid level | 訓 (fan3 ) |
試 (si3 ) |
4 |
low falling | 焚 (fan4 ) |
時 (si4 ) |
5 |
low rising | 奮 (fan5 ) |
市 (si5 ) |
6 |
low level | 份 (fan6 ) |
事 (si6 ) |
7 |
entering high level | 忽 (fat7 ) |
色 (sik7 ) |
8 |
entering mid level | 發 (faat8 ) |
攝 (sip8 ) |
9 |
entering low level | 佛 (fat9 ) |
食 (sik9 ) |
言語によって使用できる声調番号が異なります。北京語においては、声調番号 1
〜 5
が、広東語においては、 1
〜 9
が使用可能です。
5.4.5. 音節記号
音節記号として使用可能な文字を示します。
北京語
母音 | 音節記号 |
---|---|
ii | zhi chi shi ri zi ci si |
a | a ba pa ma fa da ta na la ga ka ha zha cha sha za ca sa |
o | o bo po mo fo lo |
e | e me de te ne le ge ke he zhe che she re ze ce se |
ai | ai bai pai mai dai tai nai lai gai kai hai zhai chai shai zai cai sai |
ei | ei bei pei mei fei dei tei nei lei gei kei hei zhei shei zei |
ao | ao bao pao mao dao tao nao lao gao kao hao zhao chao shao rao zao cao sao |
ou | ou pou mou fou dou tou nou lou gou kou hou zhou chou shou rou zou cou sou |
an | an ban pan man fan dan tan nan lan gan kan han zhan chan shan ran zan can san |
en | en ben pen men fen den nen gen ken hen zhen chen shen ren zen cen sen |
ang | ang bang pang mang fang dang tang nang lang gang kang hang zhang chang shang rang zang cang sang |
eng | eng beng peng meng feng deng teng neng leng geng keng heng zheng cheng sheng reng zeng ceng seng |
ong | dong tong nong long gong kong hong zhong chong rong zong cong song |
i | yi bi pi mi di ti ni li ji qi xi |
ia | ya dia lia jia qia xia |
iao | yao biao piao miao fiao diao tiao niao liao jiao qiao xiao |
ie | ye bie pie mie die tie nie lie jie qie xie |
io | yo |
iou | you miu diu niu liu jiu qiu xiu |
ian | yan bian pian mian dian tian nian lian jian qian xian |
in | yin bin pin min nin lin jin qin xin |
iang | yang niang liang jiang qiang xiang |
ing | ying bing ping ming ding ting ning ling jing qing xing |
iong | yong jiong qiong xiong |
u | wu bu pu mu fu du tu nu lu gu ku hu zhu chu shu ru zu cu su |
ua | wa gua kua hua zhua chua shua rua |
uo | wo duo tuo nuo luo guo kuo huo zhuo chuo shuo ruo zuo cuo suo |
uai | wai guai kuai huai zhuai chuai shuai |
uei | wei dui tui gui kui hui zhui chui shui rui zui cui sui |
uan | wan duan tuan nuan luan guan kuan huan zhuan chuan shuan ruan zuan cuan suan |
uen | wen bun dun tun nun lun gun kun hun zhun chun shun run zun cun sun |
uang | wang guang kuang huang zhuang chuang shuang |
ueng | weng |
v | yu nv lv ju qu xu |
ve | yue nve lve jue que xue |
van | yuan juan quan xuan |
vn | yun jun qun xun |
er | er ※ |
※ er
(児化): 中国語、特に北京語では、単語の語尾に接尾語「児」(簡体字「儿
」)が付加されることがあります。この場合、前の音節の母音がR音性を持った音に変化します。この音変化を児化と呼び、通常のピンイン表記では、ピンインの後に "r" を付加し児化を示します。本サービスの北京語の読み調整テキストでは、児化させたい音節に続けて er5
という発音記号を挿入することによって(例:玩儿
→ wan2.er5
)、児化した場合に近い発音・声調を実現できます(通常の児化のように直前の音節の母音の音色が変化するわけではありません)。通常の表記とは異なるので注意してください。なお、本サービスでは広東語の児化に対して使用可能な音節記号の定義はありません。
広東語
母音 | 音節記号 |
---|---|
aa | aa baa paa maa faa daa taa naa laa gaa kaa ngaa haa zaa caa saa gwaa kwaa jaa waa |
aai | aai baai paai maai faai daai taai naai laai gaai kaai ngaai haai zaai caai saai gwaai kwaai jaai waai |
aau | aau baau paau maau naau laau gaau kaau ngaau haau zaau caau saau jaau |
aam | aam daam taam naam laam gaam kaam ngaam haam zaam caam saam |
aan | aan baan paan maan faan daan taan naan laan gaan ngaan haan zaan caan saan gwaan waan |
aang | aang baang paang maang laang gaang ngaang haang zaang caang saang gwaang kwaang waang |
aap | aap daap taap naap laap gaap ngaap haap zaap caap saap |
aat | aat baat paat maat faat daat taat naat laat gaat kaat ngaat zaat caat saat gwaat waat |
aak | aak baak paak maak laak gaak kaak ngaak haak zaak caak saak gwaak jaak waak |
ai | ai bai pai mai fai dai tai nai lai gai kai ngai hai zai cai sai gwai kwai jai wai |
au | au bau pau mau fau dau tau nau lau gau kau ngau hau zau cau sau jau |
am | am bam dam tam nam lam gam kam ngam ham zam cam sam jam |
an | an ban pan man fan dan tan nan lan gan kan ngan han zan can san gwan kwan jan wan |
ang | ang bang pang mang fang dang tang nang lang gang kang ngang hang zang cang sang gwang kwang wang |
ap | ap dap nap lap gap kap ngap hap zap cap sap jap |
at | at bat pat mat fat dat nat lat gat kat ngat hat zat cat sat gwat jat wat |
ak | ak bak mak dak nak lak gak kak ngak hak zak cak sak |
e | e be pe me fe de ne le ge ke nge he ze ce se je we |
ei | ei bei pei mei fei dei nei lei gei kei ngei hei sei |
eu | deu |
em | lem |
eng | beng peng meng deng teng leng geng heng zeng ceng seng jeng |
ep | gep kep zep |
et | pet |
ek | bek pek dek tek lek kek hek zek cek sek |
i | bi mi di ti ni li hi zi ci si ji |
iu | biu piu miu fiu diu tiu niu liu giu kiu hiu ziu ciu siu jiu |
im | dim tim nim lim gim kim him zim cim sim jim |
in | bin pin min din tin nin lin gin kin hin zin cin sin jin |
ing | bing ping ming fing ding ting ning ling ging king hing zing cing sing gwing jing wing |
ip | dip tip nip lip gip kip hip zip cip sip jip |
it | it bit pit mit dit tit nit lit git kit ngit hit zit cit sit jit |
ik | bik pik mik fik dik tik nik lik gik kik hik zik cik sik gwik kwik jik wik |
o | o bo po mo fo do to no lo go ko ngo ho zo co so gwo jo wo |
oi | oi doi toi noi loi goi koi ngoi hoi zoi coi soi |
ou | ou bou pou mou dou tou nou lou gou ngou hou zou cou sou |
on | on gon kon ngon hon |
ong | ong bong pong mong fong dong tong nong long gong kong ngong hong zong cong song gwong kwong wong |
ot | ot got ngot hot |
ok | ok bok pok mok fok dok tok nok lok gok kok ngok hok zok cok sok gwok kwok wok |
u | wu fu gu ku gwu kwu |
ui | wui bui pui mui fui gui kui gwui kwui |
un | wun bun pun mun fun gun gwun |
ung | ung bung pung mung fung dung tung nung lung gung kung ngung hung zung cung sung jung |
ut | wut but put mut fut dut gut kut gwut kwut |
uk | uk buk puk muk fuk duk tuk nuk luk guk kuk nguk huk zuk cuk suk juk |
oe | doe toe goe koe hoe zoe |
oei | soei |
oeng | doeng noeng loeng goeng koeng hoeng zoeng coeng soeng joeng |
oek | doek noek loek goek koek zoek coek soek joek |
eoi | deoi teoi neoi leoi geoi keoi heoi zeoi ceoi seoi jeoi |
eon | deon teon leon zeon ceon seon jeon |
eot | deot teot neot leot zeot ceot seot |
v | zyu cyu syu jyu |
vn | dyun tyun nyun lyun gyun kyun hyun zyun cyun syun jyun |
vt | dyut tyut lyut gyut kyut hyut zyut cyut syut jyut |
mm | m ngm hm |
ngf | ng hng |
um | gum |
5.4.6. 拡張記号
拡張記号は、識別子(P
E
T
)と記号(,
;
/
\
等)を #
で囲ったものです。前後の発音記号(音節)に情報を付与する役割をもちます。
識別子 | 記号 | 内容 | 例 | 備考 |
---|---|---|---|---|
P |
, |
句読点 | #P,# |
発音記号に先行して配置 |
P |
; |
句読点 | #P;# |
発音記号に先行して配置 |
P |
: |
句読点 | #P:# |
発音記号に先行して配置 |
P |
– |
句読点 | #P-# |
発音記号に先行して配置 |
P |
. |
句読点 | #P.# |
発音記号に先行して配置 |
P |
? |
句読点 | #P?# |
発音記号に先行して配置 |
P |
! |
句読点 | #P!# |
発音記号に先行して配置 |
E |
\ |
文末トーン:語尾下げ ※1 | #E\# |
発音記号の直後に配置 |
E |
/ |
文末トーン:語尾上げ ※1 | #E/# |
発音記号の直後に配置 |
T |
(記載省略) | 内部技術情報 | #T (記号)# |
発音記号に先行して配置 |
識別子 T
の拡張記号は、読み調整テキスト変換時に本サービスによって自動付与される場合があります。記号部には、アルファベット1~2文字が出力されます。これは本サービス固有の内部情報のため、記号部の内容を変更しないでください。
識別子 P
T
の拡張記号が一つの発音記号を装飾する場合もあります。その場合、 #P.;Tn#
のように #~~#
の中に ;
で区切って表記されます。
※1: 現在は、拡張記号E #E\#
#E/#
は無視されます。これらは将来の機能拡張のため予約されています。
5.4.7. 区切り記号
記号 | 名称 | 機能 |
---|---|---|
. |
ピリオド | 音節境界 |
|
空白文字(ホワイトスペース) | 単語境界 |
-- |
ハイフン2つ | ポーズ |
- 連続する複数の空白文字は1つの単語境界と解釈されます