Provisional translation in English for reference is here.
このページでは「Timely Disclosure Documents Corpus」(以下「本コーパス」)に係る注釈等を記載いたします。
本コーパスは機械翻訳の開発の促進を狙って、日本取引所グループ (JPX) からWAT に提供されています。
Timely Disclosure Documents Corpus1. 本コーパスの記載内容1.1. 情報が不均衡な対訳1.1.1. 名詞及び代名詞の英訳1.1.2. 数値の省略1.2. 不適切な文字1.3. 不適切なアライメント作業2. 本コーパスの仕様2.1. 全般2.2. 各項目の仕様2.3. textsとitemsの分割2.4. データの統計3. TRAIN / DEV / DEVTEST / TEST の作成手順4. 評価方法5. 正規化作業5.1. 文字の置換5.2. Unicode正規化5.3. 文字の削除5.4. スペースの削除5.5. 対訳の削除6. FAQ(重要) データセットの更新 (2019-06-07)DEV / DEVTEST に追加した文 (2019-06-12)リーダーボードへの登録に係る追加情報更新前 (2018-06-07以前) のデータセットの仕様関連リンク変更ログ著者
項目 | 内容 |
---|---|
言語対 | 日本語 - 英語 |
作成元ドキュメント | 適時開示資料 (約16,000 文書) |
作成元ドキュメントの作成者 | 東京証券取引所の上場企業等 |
作成元ドキュメントの開示日の範囲 | 2016年1月1日 〜 2018年6月30日 |
文の順番 | 順不同 |
アライメント方法 | 複数の作業者による手作業 |
本コーパスは、日本語と英語の過去の適時開示資料から作成された、約140万文の日英対訳コーパスです。
作成元ファイルの形式はPDFであり、アライメント作業は手作業で行われています。
適時開示資料には重要な数値(例:売上、利益、日付)および固有名詞(例:個人の名前、場所、会社、事業および製品)が含まれています。
これらは投資家にとって重要な情報であるため、これらの誤訳を抑えつつ、全体的な翻訳品質を向上させる必要があります。
日本語の適時開示資料には中国語の固有名詞が含まれることがあります(以下例)。
本コーパスは文脈を保持していないため、以下の例をはじめとして、日英の文の情報が同等ではない(不均衡な)対訳が含まれています。
ただし、本タスクにおいては、これらの文脈を踏まえた正確な翻訳は必要ありません。
日本語における主語及び目的語の省略
日本語の適時開示資料では主語や目的語を省略されることもありますが、英語では代名詞または固有名詞が補足される場合があります。
日本語における人称代名詞の優先的な利用
日本語の適時開示資料では、「当社」や「同氏」などの代名詞が頻繁に使用されていますが、英語では固有名詞が補足される場合があります。
日本語の適時開示資料では日付の一部が省略されることもありますが、英語ではそれらが補足される場合があります。
会計期間
以下の理由により、本コーパスには適切ではない文字 (例: 文字化け) が含まれる恐れがあります。
これらの文字は半角のクエッションマーク (?) に置換されている恐れがあります。
適時開示資料 (PDF) から文をコピーする際に、文頭および文末の記号を漏らしてしまっている恐れがあります。
本コーパスは、TRAIN、DEV、DEVTEST、TESTの4つのデータセットで構成されています。
TRAINは、作成元ドキュメントの開示日によって2つ(2016年-2017年、2018年)に分割しています。
DEV、DEVTEST、TESTはそれぞれ、本文のみを抽出したデータセット (texts) と、 本文以外のデータセット (items) に分割しています。
項目 | 内容 |
---|---|
ファイル形式 | TSVファイル |
文字コード | UTF-8 |
改行コード | CRLF |
区切り文字 | Tab (U+0009) |
囲み文字 | None |
エスケープ文字 | Backslash (U+005C) |
各項目における禁則文字 | Tab (U+0009), Newline code(U+000D, U+000A) |
import csv
corpus_data = csv.reader(open('train.tsv'), delimiter="\t", quoting=csv.QUOTE_NONE, escapechar="\\")
列番号 | 項目名 | データ型 | 必須 |
---|---|---|---|
1 | Document hash | String | TRUE |
2 | Sentence hash | String | TRUE |
3 | Japanese sentences | String | TRUE |
4 | English sentences | String |
xxxxxxxxxx
document_hash = hash(salt + document_id)
sentence_hash = hash(salt + document_id + sentence_id)
DEV、DEVTEST、TESTはそれぞれ、本文のみを抽出したデータセット (texts) と、 本文以外のデータセット (items) に分割しています。
日本語の文が句点 (。, U+3002) で終わる対訳を本文として抽出しています。
本文以外のデータセット (items) に分類される文の例は次のとおりです。
データセット | ファイル名 | 文数 | ユニークな対訳数 | 作成元ドキュメント数 |
---|---|---|---|---|
TRAIN_2016-2017 | train_2016-2017.tsv | 1,089,346 | 614,817 | 12,663 |
TRAIN_2018 | train_2018.tsv | 314,649 | 218,495 | 3,128 |
DEV_ITEMS | dev_items.tsv | 2,845 | 2,650 | 242 |
DEV_TEXTS | dev_texts.tsv | 1,153 | 1,148 | 210 |
DEVTEST_ITEMS | devtest_items.tsv | 2,900 | 2,671 | 244 |
DEVTEST_TEXTS | devtest_texts.tsv | 1,114 | 1,111 | 209 |
TEST_ITEMS | test_items.tsv | 2,129 | 1,763 | 164 |
TEST_TEXTS | test_texts.tsv | 1,153 | 1,135 | 144 |
作成元ドキュメントの開示日の範囲:
分割前のDEV / DEVTEST / TEST の作成元ドキュメント数 :
TRAIN_2016-2017は、2016年1月1日 〜 2017年12月31日に開示された適時開示資料をもとに作成します。
DEV / DEVTEST / TESTのデータセットの作成に当たっては、以下に記載のルールに従っています。
TRAIN_2018は、上述の適時開示資料の抽出の際に、抽出対象とならなかった適時開示資料をもとに作成します。
従って、TRAIN / DEV / DEVTEST / TESTのデータセットの作成元ドキュメントの集合は、互いに独立しています。
また、DEV / DEVTEST / TESTのデータセットにはそれぞれ、数値及び固有名詞の翻訳品質を重視する文が含まれています。
Reference filesに記載のとおり、所定のコードの文字の置換を実施しております。
置換例の一部を以下に記載します。
置換前コード | 置換後コード | 置換前表記 | 置換前名前 | 置換後表記 | 置換後名前 |
---|---|---|---|---|---|
FF5E | 301C | ~ | FULLWIDTH TILDE | 〜 | WAVE DASH |
007E | 301C | ~ | TILDE | 〜 | WAVE DASH |
02F7 | 301C | ˷ | MODIFIER LETTER LOW TILDE | 〜 | WAVE DASH |
2053 | 301C | ⁓ | SWUNG DASH | 〜 | WAVE DASH |
223C | 301C | ∼ | TILDE OPERATOR | 〜 | WAVE DASH |
22BF | 25B3 | ⊿ | RIGHT TRIANGLE | △ | WHITE UP-POINTING TRIANGLE |
25B5 | 25B3 | ▵ | WHITE UP-POINTING SMALL TRIANGLE | △ | WHITE UP-POINTING TRIANGLE |
25FF | 25B3 | ◿ | LOWER RIGHT TRIANGLE | △ | WHITE UP-POINTING TRIANGLE |
2B26 | 25C7 | ⬦ | WHITE MEDIUM DIAMOND | ◇ | WHITE DIAMOND |
2B28 | 25C7 | ⬨ | WHITE MEDIUM LOZENGE | ◇ | WHITE DIAMOND |
2B2B | 25C7 | ⬫ | WHITE SMALL LOZENGE | ◇ | WHITE DIAMOND |
25CA | 25C7 | ◊ | LOZENGE | ◇ | WHITE DIAMOND |
2662 | 25C7 | ♢ | WHITE DIAMOND SUIT | ◇ | WHITE DIAMOND |
以下の文字を除いて、NFKC (Normalization Form Compatibility Composition) によるUnicode正規化を施しています。
丸数字 (U+2460 - U+2473)
2点リーダ (U+2025)
3点リーダ (U+2026)
コード | 表記 | 名前 |
---|---|---|
2412 | ␒ | SYMBOL FOR DEVICE CONTROL TWO |
2413 | ␓ | SYMBOL FOR DEVICE CONTROL THREE |
2414 | ␔ | SYMBOL FOR DEVICE CONTROL FOUR |
0327 | COMBINING CEDILLA | |
0332 | COMBINING LOW LINE | |
0337 | COMBINING SHORT SOLIDUS OVERLAY | |
05B9 | HEBREW POINT HOLAM | |
FFFC | OBJECT REPLACEMENT CHARACTER | |
FFFD | � | REPLACEMENT CHARACTER |
2028 | LINE SEPARATOR |
以下のとおり、余分なスペースを削除しております。
以下に挙げる条件を満たす対訳を削除しております。
本コーパスはCG報告書(コーポレート・ガバナンス報告書)の文を含んでいますか?
本コーパスの作成元ドキュメントである適時開示資料には、CG報告書を含んでいます。
CG報告書の機械翻訳における問題点等については、下記の資料をご参考ください。
各データセットにおいて、一部の文が重複しているのは何故ですか? (TESTのデータセットの文が他のデータセットにも含まれているのは何故ですか?)
2018-06-07 以前に提供されたデータセットは更新されます。
更新箇所の概要は次のとおりです。
2018-06-07 以前に提供されたTESTは、DEVTESTと名称を変更し、新規にTESTのデータセットを作成します。
TRAIN / DEV / DEVTEST / TEST のそれぞれの行に、以下の2列を追加します。
DEVとDEVTEST (旧TEST) のそれぞれに、itemsとtextsで合計200文程度 (見込み) を追加します。
TRAINを、作成元ドキュメントの開示日の期間によって分割します。
TRAIN_2016-2017: 2016年1月1日 〜 2017年12月31日 (24ヶ月)
TRAIN_2018: 2018年1月1日 〜 2018年6月30日 (6ヶ月)
開示日による分割以外の更新はありません。
DEV、DEVTEST、TESTをそれぞれ、項目名等 (items) のみを抽出したデータセットと、本文 (texts) のみを抽出したデータセットに分割します。
この更新に伴う、データセットの構成の更新は次のとおりです。
Before | After | Remarks |
---|---|---|
TRAIN (train.tsv) | TRAIN_2016-2017 (train_2016-2017.tsv) | 開示日の範囲は他のデータセットから独立 |
TRAIN_2018 (train_2018.tsv) | 開示日の範囲が DEV / DEVTEST / TEST と重複 | |
DEV (dev.tsv) | DEV_ITEMS (dev_items.tsv) | Beforeのdev.tsvからitemsを抽出、文を追加 |
DEV_TEXTS (dev_texts.tsv) | Beforeのdev.tsvからtextsを抽出、文を追加 | |
TEST (test.tsv) | DEVTEST_ITEMS (devtest_items.tsv) | Beforeのtest.tsvからitemsを抽出、文を追加 |
DEVTEST_TEXTS (devtest_texts.tsv) | Beforeのtest.tsvからtextsを抽出、文を追加 | |
TEST_ITEMS (test_items.tsv) | 新規作成 | |
TEST_TEXTS (test_texts.tsv) | 新規作成 |
DEVとDEVTEST (旧TEST) のそれぞれに、itemsとtextsの合計105文と138文を追加しました。
これらの作成元ドキュメントはそれぞれ1文書です。
追加した文のDocument hashはそれぞれ次のとおりです。
リーダーボードへの登録の際は、DEVTESTの結果ではなく、新規TESTの結果の提供をお願いいたします。
リーダーボードのコメント欄には、使用したTRAINについて記載をお願いします。
列番号 | 項目名 | データ型 | 必須 |
---|---|---|---|
1 | Japanese sentences | String | TRUE |
2 | English sentences | String | TRUE |
データセット | ファイル名 | 文数 | ユニークな対訳数 | 作成元ドキュメント数 |
---|---|---|---|---|
TRAIN | train.tsv | 1,403,995 | 762,095 | 15,791 |
DEV | dev.tsv | 3,893 | 3,671 | 250 |
TEST | test.tsv | 3,877 | 3,620 | 251 |
作成元ドキュメントの開示日の範囲:
2019-06-21: データの統計(作成元ドキュメント数)の追記、関連リンクの追加、ほか
2019-06-14: データの統計(TEST)の更新
2019-06-12: textsとitemsの分割方法の更新、データの統計(DEV / DEVTEST)の更新、ほか
2019-06-10: データの統計(TRAIN)の更新、ほか
2019-06-07: データセットの更新、FAQの追加、ほか
2019-05-11: 公開
株式会社日本取引所グループ