Provisional translation in English for reference is here.

 

Timely Disclosure Documents Corpus

このページでは「Timely Disclosure Documents Corpus」(以下「本コーパス」)に係る注釈等を記載いたします。

本コーパスは機械翻訳の開発の促進を狙って、日本取引所グループ (JPX) からWAT に提供されています。

 

Timely Disclosure Documents Corpus1. 本コーパスの記載内容1.1. 情報が不均衡な対訳1.1.1. 名詞及び代名詞の英訳1.1.2. 数値の省略1.2. 不適切な文字1.3. 不適切なアライメント作業2. 本コーパスの仕様2.1. 全般2.2. 各項目の仕様2.3. textsとitemsの分割2.4. データの統計3. TRAIN / DEV / DEVTEST / TEST の作成手順4. 評価方法5. 正規化作業5.1. 文字の置換5.2. Unicode正規化5.3. 文字の削除5.4. スペースの削除5.5. 対訳の削除6. FAQ(重要) データセットの更新 (2019-06-07)DEV / DEVTEST に追加した文 (2019-06-12)リーダーボードへの登録に係る追加情報更新前 (2018-06-07以前) のデータセットの仕様関連リンク変更ログ著者

 

1. 本コーパスの記載内容

項目内容
言語対日本語 - 英語
作成元ドキュメント適時開示資料 (約16,000 文書)
作成元ドキュメントの作成者東京証券取引所の上場企業等
作成元ドキュメントの開示日の範囲2016年1月1日 〜 2018年6月30日
文の順番順不同
アライメント方法複数の作業者による手作業

 

 

 

1.1. 情報が不均衡な対訳

 

1.1.1. 名詞及び代名詞の英訳

 

1.1.2. 数値の省略

 

1.2. 不適切な文字

 

1.3. 不適切なアライメント作業

 

 

2. 本コーパスの仕様

 

2.1. 全般

項目内容
ファイル形式TSVファイル
文字コードUTF-8
改行コードCRLF
区切り文字Tab (U+0009)
囲み文字None
エスケープ文字Backslash (U+005C)
各項目における禁則文字Tab (U+0009), Newline code(U+000D, U+000A)

 

 

2.2. 各項目の仕様

列番号項目名データ型必須
1Document hashStringTRUE
2Sentence hashStringTRUE
3Japanese sentencesStringTRUE
4English sentencesString 

 

 

2.3. textsとitemsの分割

 

 

2.4. データの統計

データセットファイル名文数ユニークな対訳数作成元ドキュメント数
TRAIN_2016-2017train_2016-2017.tsv1,089,346614,81712,663
TRAIN_2018train_2018.tsv314,649218,4953,128
DEV_ITEMSdev_items.tsv2,8452,650242
DEV_TEXTSdev_texts.tsv1,1531,148210
DEVTEST_ITEMSdevtest_items.tsv2,9002,671244
DEVTEST_TEXTSdevtest_texts.tsv1,1141,111209
TEST_ITEMStest_items.tsv2,1291,763164
TEST_TEXTStest_texts.tsv1,1531,135144

 

3. TRAIN / DEV / DEVTEST / TEST の作成手順

 

4. 評価方法

 

5. 正規化作業

 

5.1. 文字の置換

置換前コード置換後コード置換前表記置換前名前置換後表記置換後名前
FF5E301CFULLWIDTH TILDEWAVE DASH
007E301C~TILDEWAVE DASH
02F7301C˷MODIFIER LETTER LOW TILDEWAVE DASH
2053301CSWUNG DASHWAVE DASH
223C301CTILDE OPERATORWAVE DASH
22BF25B3RIGHT TRIANGLEWHITE UP-POINTING TRIANGLE
25B525B3WHITE UP-POINTING SMALL TRIANGLEWHITE UP-POINTING TRIANGLE
25FF25B3LOWER RIGHT TRIANGLEWHITE UP-POINTING TRIANGLE
2B2625C7WHITE MEDIUM DIAMONDWHITE DIAMOND
2B2825C7WHITE MEDIUM LOZENGEWHITE DIAMOND
2B2B25C7WHITE SMALL LOZENGEWHITE DIAMOND
25CA25C7LOZENGEWHITE DIAMOND
266225C7WHITE DIAMOND SUITWHITE DIAMOND

 

5.2. Unicode正規化

 

5.3. 文字の削除

 

コード表記名前
2412SYMBOL FOR DEVICE CONTROL TWO
2413SYMBOL FOR DEVICE CONTROL THREE
2414SYMBOL FOR DEVICE CONTROL FOUR
0327 COMBINING CEDILLA
0332 COMBINING LOW LINE
0337 COMBINING SHORT SOLIDUS OVERLAY
05B9 HEBREW POINT HOLAM
FFFC OBJECT REPLACEMENT CHARACTER
FFFDREPLACEMENT CHARACTER
2028 LINE SEPARATOR

 

5.4. スペースの削除

 

5.5. 対訳の削除

 

 

6. FAQ

 

 

 

 


 

(重要) データセットの更新 (2019-06-07)

BeforeAfterRemarks
TRAIN (train.tsv)TRAIN_2016-2017 (train_2016-2017.tsv)開示日の範囲は他のデータセットから独立
 TRAIN_2018 (train_2018.tsv)開示日の範囲が DEV / DEVTEST / TEST と重複
DEV (dev.tsv)DEV_ITEMS (dev_items.tsv)Beforeのdev.tsvからitemsを抽出、文を追加
 DEV_TEXTS (dev_texts.tsv)Beforeのdev.tsvからtextsを抽出、文を追加
TEST (test.tsv)DEVTEST_ITEMS (devtest_items.tsv)Beforeのtest.tsvからitemsを抽出、文を追加
 DEVTEST_TEXTS (devtest_texts.tsv)Beforeのtest.tsvからtextsを抽出、文を追加
 TEST_ITEMS (test_items.tsv)新規作成
 TEST_TEXTS (test_texts.tsv)新規作成

figure1

 

DEV / DEVTEST に追加した文 (2019-06-12)

 

リーダーボードへの登録に係る追加情報

 

 

更新前 (2018-06-07以前) のデータセットの仕様

 

列番号項目名データ型必須
1Japanese sentencesStringTRUE
2English sentencesStringTRUE

 

データセットファイル名文数ユニークな対訳数作成元ドキュメント数
TRAINtrain.tsv1,403,995762,09515,791
DEVdev.tsv3,8933,671250
TESTtest.tsv3,8773,620251

 

 

関連リンク

 

変更ログ

2019-06-21: データの統計(作成元ドキュメント数)の追記、関連リンクの追加、ほか

2019-06-14: データの統計(TEST)の更新

2019-06-12: textsとitemsの分割方法の更新、データの統計(DEV / DEVTEST)の更新、ほか

2019-06-10: データの統計(TRAIN)の更新、ほか

2019-06-07: データセットの更新、FAQの追加、ほか

2019-05-11: 公開

 

著者

株式会社日本取引所グループ