7. ユーザー言語辞書
7.1. ユーザー言語辞書概要
ユーザー言語辞書とは、単語の読み方を定義する、ユーザーが編集可能な単語辞書です。入力テキスト(プレーンテキスト)を音声合成または読み調整テキスト変換する際に、音声合成エンジンに搭載される標準の辞書と合わせて参照されます。ユーザー言語辞書を使うことにより、標準の辞書が対応していない固有名詞や専門用語などを含んだ入力テキストをより自然に読み上げることができるようになります。
ユーザー言語辞書では、プレーンテキストの単語(見出し)に対して、読み・アクセント文字列を設定します。
読み・アクセント文字列は、読み調整テキスト形式で指定しますが、一部制限があります。ユーザー言語辞書の読み・アクセント文字列における制限については、以下の各言語の仕様・制限を参照して下さい。
ユーザー言語辞書は、作成時に対応言語を選択します。言語によって仕様が異なりますので、 共通の仕様・制限 および以下の各節を参照して下さい。
言語 | 仕様・制限 |
---|---|
日本語 | 日本語辞書の仕様・制限 |
米語(アメリカ英語) 英語(イギリス英語) 仏語(フランス語) 加仏語(カナダ・フランス語) 西語(スペイン語) 米西語(アメリカ・スペイン語) 独語(ドイツ語) |
欧米言語辞書の仕様・制限 |
北京語 広東語 |
中国語辞書の仕様・制限 |
韓国語 | 韓国語辞書の仕様・制限 |
7.2. 共通の仕様・制限
- ユーザー言語辞書は、アカウントIDごとに最大1000個まで作成できます。
- ユーザー言語辞書IDは最大64文字まで入力できます。
- ユーザー言語辞書IDに使用できる文字は半角英数字および半角記号(
(
)
*
-
.
_
)です。 - ユーザー言語辞書に登録した単語が、読みとして必ず反映されるとは限りません。言語解析結果により標準の辞書の読みが優先される場合があります。
- 1つのユーザー言語辞書内には最大30000件まで単語を登録できます。
- 登録する単語の品詞を指定することはできません。登録された単語は全て「名詞」として扱われます。名詞以外の語句も登録は可能ですが、言語解析処理で「名詞」として扱われることにより、読み上げ時に登録した読み・アクセントが意図した通りに反映されない場合があります。
- 1つのユーザー言語辞書内に、同じ見出しの単語を複数定義することはできません。なお、複数のユーザー言語辞書で同じ見出しが登録されていた場合には、優先順位の高い辞書の読みが採用されます。
7.3 日本語辞書の仕様・制限
見出し文字列
- 登録可能な「見出し」文字列は、全角文字で最長31文字までです。
- シフトJISコードで表現可能な文字のみ使用可能です。
- アルファベット、記号、スペース、半角カタカナなどの半角文字は、全角文字に変換して登録されます。
- ユーザー言語辞書には原則として、「見出し」の表記が漢字やひらがな、カタカナの単語を登録します。「見出し」の表記に記号や英数字、空白文字などを含めた場合は、登録はできても、前後の文字の並びなどによって、内部の処理で別の読み方と判断される可能性があります。
、
。
.
?
!
のいずれか1文字からなる見出しは、登録はできても、ユーザー言語辞書に指定した読み方をしません。また、内部では旧字(壱
、燈
など)を新字(一
、灯
など)に変換して処理を行っているため、旧字と新字に別々の読みを与えることはできません。
読み・アクセント文字列
- 読みは最大100文字、1つのアクセント句中の読みは最大38文字、アクセント句数は最大6個までです。
- 読みの指定には全角または半角のカタカナのみが利用できます。ただし、半角カタカナは全角に変換されて登録されます。
- アクセント記号は
’
(全角または半角)のみが利用できます。ただし、全角の’
は半角に変換されて登録されます。 - アクセント記号は音節間もしくは文字列末尾のみ配置できます(最後のアクセント句を除いて、アクセント句の末尾には配置できません)。
- アクセント記号は音節
ー
ッ
ン
の後には配置できません。 - 区切り記号は
- 無声化音節を指定する
%
は利用できません。 ※ 無声化すべき音節は内部処理で自動判定されます。ユーザーが指定することはできません。
7.4 欧米言語辞書の仕様・制限
見出し文字列
- 登録可能な「見出し」文字列は、最長49文字までです。
- Latin-9で表現可能な文字のみ使用可能です。
- ただし、制御文字および以下の文字を除きます。
!
"
,
:
;
<
>
?
{
}
0xa0(nbsp)Š
š
Ž
ž
Œ
œ
Ÿ
- ただし、制御文字および以下の文字を除きます。
読み・アクセント文字列
- 読みは最大199文字、1つのアクセント句中の最大母音数は12個、最大音素数は100個です。
- 拡張記号は利用できません。
- アクセントは
"
(語彙アクセント)のみ利用できます。""
(強い語彙アクセント)および"""
(とても強い語彙アクセント)は利用できません。 --
(ポーズ)は利用できません。
7.5 中国語辞書の仕様・制限
見出し文字列
- 登録可能な「見出し」文字列は、最長10文字までです。
- GB18030コード(1バイト目: 0x81〜0xfe、2バイト目: 0x80〜0xfe)で表現可能な文字のみ使用可能です。
- 1バイト・4バイトのGB18030コードで表現される文字は利用できません。
読み・アクセント文字列
- 読みは最大10音節記号までです。
- 拡張記号・区切り文字は利用できません(通常の読み調整テキストと異なり
.
で音節を区切る必要はありません)。
7.6 韓国語辞書の仕様・制限
見出し文字列
- 登録可能な「見出し」文字列は、最長33文字までです。
- 以下のUnicode文字が利用できます。
- ハングル音節文字 (U+AC00〜U+D7A4)
- CJK統合漢字 (U+4E00〜U+9FCC)
- 全角アルファベット (U+FF21〜U+FF3A、U+FF41〜U+FF5A)
- ハングル互換字母 (U+3131〜U+318E)
- 全角空白 (U+3000)
読み・アクセント文字列
- 読みは最大99文字までです。
- 読み調整テキストの音節記号として使用可能なハングル音節文字のみ使用できます。
- 読みでは空白は使用できません。