info:aboutus
差分
この文書の現在のバージョンと選択したバージョンの差分を表示します。
両方とも前のリビジョン 前のリビジョン 次のリビジョン | 前のリビジョン | ||
info:aboutus [2024/02/13 12:05] tk [目的] |
info:aboutus [2024/08/24 14:50] (現在) tk [はじめに] |
||
---|---|---|---|
ライン 1: | ライン 1: | ||
====== 『日本語レトリックコーパス』について ====== | ====== 『日本語レトリックコーパス』について ====== | ||
- | <WRAP center round important 60%> | ||
- | ※このページはアップデート作業中です。 | ||
- | </WRAP> | ||
===== はじめに ===== | ===== はじめに ===== | ||
**日本語レトリックコーパス** (The Corpus of Japanese Figurative Language; J-FIG) は、典拠のある日本語のテクストから抽出され、言語学、および修辞学を背景とした分析に関する注釈の情報(アノテーション)が付与されているレトリックの用例を、ウェブで容易に参照することができる言語コーパスです。 | **日本語レトリックコーパス** (The Corpus of Japanese Figurative Language; J-FIG) は、典拠のある日本語のテクストから抽出され、言語学、および修辞学を背景とした分析に関する注釈の情報(アノテーション)が付与されているレトリックの用例を、ウェブで容易に参照することができる言語コーパスです。 | ||
- | 現在約2,400例(約20万語規模、調査対象テキストの文字数約94万字)が収録されています。将来的には、録用例数を増やす予定です。データ利用に関する規約、全データのダウンロードは[[info:guideline]]を参照して下さい。 | + | 現在約2,400例(約20万語規模、調査対象テキストの文字数約94万字)が収録されています。将来的には、収録用例数を増やす予定です。データ利用に関する規約、全データのダウンロードは[[info:guideline]]を参照して下さい。 |
* 基本的な使い方は、[[info:howto]]を見て下さい。 | * 基本的な使い方は、[[info:howto]]を見て下さい。 | ||
ライン 34: | ライン 31: | ||
すべての用例に、[[index:category]]、[[index:mapping]]、[[index:construction]]、[[index:effect]]のような分析に関する注釈情報(アノテーション)を付与することで、レトリックの多様な側面を理解しやすくしています。研究者でない人でも、コーパスに収録された印象深いレトリックの表現を味読すると、面白いと感じるかもしれません。 | すべての用例に、[[index:category]]、[[index:mapping]]、[[index:construction]]、[[index:effect]]のような分析に関する注釈情報(アノテーション)を付与することで、レトリックの多様な側面を理解しやすくしています。研究者でない人でも、コーパスに収録された印象深いレトリックの表現を味読すると、面白いと感じるかもしれません。 | ||
+ | |||
==== 特徴 ==== | ==== 特徴 ==== | ||
- | このコーパスの構築は、以下のような方針に基づいています。 | + | このコーパスには、以下のような特徴があります。 |
+ | |||
+ | このような特徴を備えたコーパスの構築は、初めての試みであると思われます。比喩表現の他のコーパスと本プロジェクトとの比較については「[[info:corpuses]]」を参照して下さい。 | ||
+ | |||
+ | === 実例 === | ||
+ | |||
+ | 実際の言語使用から抽出されたレトリックの用例テクストを収録しています。(将来的にはさまざまなジャンル、年代の用例を収録する計画です。) | ||
+ | |||
+ | === 修辞学的アノテーション === | ||
+ | |||
+ | 広範囲の[[index:category]]の用例を収録しており、レトリックとして認められる言語表現全般を多角的に記述します。用例を修辞学用語によって分類します。 | ||
+ | |||
+ | === 意味論的アノテーション === | ||
+ | |||
+ | 『[[https://pj.ninjal.ac.jp/corpus_center/goihyo.html|分類語彙表-増補改訂版データベース]]』をシソーラスとして、レトリックの意味を体系的に記述します。メタファー、メトニミー、コントラストの[[index:mapping]]を記述します。 | ||
+ | |||
+ | === 文法論的アノテーション === | ||
+ | |||
+ | 『[[http://doi.org/10.15084/00003531|「現代語の助詞・助動詞」データベース版]]』を用いて、「XのようなY」「まるでXのように感じる」といった[[index:construction]]を構造と機能の面から分析します。 | ||
+ | |||
+ | === 語用論的アノテーション === | ||
+ | |||
+ | 用例のコンテクストの具体的な理解にもとづく[[index:effect]]を記述します。効果を[[index:category#修辞学用語一覧]]によって分類します。 | ||
- | * 実例から抽出されたレトリックの用例テクストを収録する。(現在は近大文学作品から用例のみであるが、将来的にはさまざまなジャンル、年代の用例を収録する計画である。) | + | === メタデータ === |
- | * 修辞学的アノテーション:広範囲の[[index:category]]の用例を収録しており、レトリックとして認められる言語表現全般を多角的に記述する。用例を修辞学用語によって分類する。 | + | |
- | * 意味論的アノテーション:『[[https://pj.ninjal.ac.jp/corpus_center/goihyo.html|分類語彙表-増補改訂版データベース]]』をシソーラスとして、レトリックの意味を体系的に記述し、メタファー、メトニミー、コントラストの[[index:mapping]]を記述する。 | + | |
- | * 文法論的アノテーション:『[[http://doi.org/10.15084/00003531|「現代語の助詞・助動詞」データベース版]]』を用いて、「XのようなY」「まるでXのように感じる」といった[[index:cx]]を構造と機能の面から分析する。 | + | |
- | * 語用論的アノテーション:用例のコンテクストの具体的な理解にもとづく[[index:effect]]を記述する。効果を修辞学用語によって分類する。 | + | |
- | * メタデータのアノテーション:[[index:name|著者名]]、[[index:piece|作品名]]、ページ数を特定した[[index:reference]]の情報を付与し、外部データベースと可能な限り連携する。 | + | |
- | このような特徴を備えたコーパスの構築は、初めての試みであると思われます。比喩表現のコーパスを作るプロジェクトは他にもいくつかあります。これらと本プロジェクトとの比較については「[[info:corpuses]]」を参照して下さい。 | + | [[index:name|著者名]]、[[index:piece|作品名]]、[[index:reference]]のメタ情報を付与し、『[[https://id.ndl.go.jp/auth/ndla/|Web NDL Authorities]]』『[[https://ndlsearch.ndl.go.jp/|国立国会図書館サーチ]]』などの外部データベースと可能な限り連携します。 |
===== 基本方針 ===== | ===== 基本方針 ===== | ||
ライン 86: | ライン 101: | ||
人類学の行動記述に文脈が必要であるように、言語学の言語記述にも文脈が必要です。レトリックの効果は、前後の文脈によって生まれます。より厳密には、その表現の背景となる情報すべてが、レトリックの意味に影響します。どのようなコンテクストによって、どのような意味が生まれているかを詳しく記述することで、レトリックはより深く理解することができると考えます。 | 人類学の行動記述に文脈が必要であるように、言語学の言語記述にも文脈が必要です。レトリックの効果は、前後の文脈によって生まれます。より厳密には、その表現の背景となる情報すべてが、レトリックの意味に影響します。どのようなコンテクストによって、どのような意味が生まれているかを詳しく記述することで、レトリックはより深く理解することができると考えます。 | ||
- | |||
- | ただし、現段階で、用例には十分厚い記述がほどこされているわけではありません。修辞的効果をはじめとする、レトリックの微妙な意味合いの記述には、テクスト分析と文学的考察が必要であると思われます。 | ||
==== 多人数による記述 ==== | ==== 多人数による記述 ==== | ||
ライン 94: | ライン 107: | ||
多人数による記述は、レトリックの定義と分類における主観性のリスクを軽減します。 | 多人数による記述は、レトリックの定義と分類における主観性のリスクを軽減します。 | ||
- | 認知言語学では、隠喩や換喩といった基本的な修辞学用語の定義を試みています。語用論では、皮肉の定義がいくども試みられてきました。しかし、具体例の一つ一つについて、誰もが満足する分類を行うことは容易ではありません。修辞学には無数の専門用語があり、それぞれの用語の定義は不明確なことも多く、定義の適用範囲にはかなりのゆれがあるという問題があります。 | + | 具体例の一つ一つについて、誰もが満足する分析、分類を行うことは容易ではありません。多くの人が用例記述を編集することは、この問題に対する素朴な解決策になります。レトリックは多くの人を納得させる言語表現です。1人が納得できる記述よりも、5人が納得できる記述の方が、レトリックの分析としては妥当だと言えるでしょう。 |
- | 多くの人が用例記述を編集することは、この問題に対する素朴な解決策になります。レトリックは多くの人を納得させる言語表現です。1人が納得できる記述よりも、5人が納得できる記述の方が、レトリックの分析としては妥当だと言えるでしょう。 | + | このコーパスでは、できるだけ多くの研究者がアノテーションを確認しています。また、アノテーションに関する議論は、閲覧者の皆様にも開かれています。多数の目にさらされた分析は、よりよいものになることが期待されます。 |
- | + | ||
- | このコーパスでは、複数の編集者が自由にページを編集します。複数の分析の目にさらされた用例ページは、よりよいものになることが期待されます。 | + | |
ライン 105: | ライン 116: | ||
ある用例ページは、さまざまなカテゴリーに多重に分類されます。 | ある用例ページは、さまざまなカテゴリーに多重に分類されます。 | ||
- | このコーパスでは、タグ機能によって、用例にさまざまなアノテーションを付けます。複数の用例に同じタグがつくと、タグは用例のカテゴリーになります。ある用例が、何のレトリックなのか、どのような意味や効果をもつのか、ということはしばしば問題になりますが、答えが必ず一つに決まるべきであるかは分かりません。このコーパスでは、各用例を排他的に分類することはありません。あるカテゴリーの定義特性を備えているならば、アノテーションはいくらでも多重化し、多層的な情報がタグづけされ、分類されます。 | + | このコーパスでは、タグ機能によって、用例にさまざまなアノテーションを付けます。複数の用例に同じタグがつくと、タグは用例のカテゴリーになります。このコーパスでは、各用例を排他的に分類することはありません。あるカテゴリーの定義特性を備えているならば、アノテーションはいくらでも多重化し、多層的な情報がタグづけされ、分類されます。 |
- | + | ||
- | 古典的な修辞学の理論では、「Aか、それともBか」という分類名称を決めることが議論の的になることがありますが、上記の理由から、このコーパスでは、これは決定的な問題にはならないことが普通です。 | + | |
さらに、カテゴリーのカテゴリー(抽象的なカテゴリー)を作る際にも、多重分類の原則がはたらきます。これによって、特定の理論のバイアスに左右されにくく、用例記述に沿った分類体系を構築することができると考えます。 | さらに、カテゴリーのカテゴリー(抽象的なカテゴリー)を作る際にも、多重分類の原則がはたらきます。これによって、特定の理論のバイアスに左右されにくく、用例記述に沿った分類体系を構築することができると考えます。 | ||
ライン 113: | ライン 122: | ||
===== データの収集方針について ===== | ===== データの収集方針について ===== | ||
- | このコーパスは、日本語のレトリック全体の代表的なデータを収集することを視野に入れています。どのようなリソースから用例を収集すればよいかという、いわゆる「均衡性」の問題は微妙ですが、少なくとも、年代とジャンルについては、バランスの取れたデータ収集源を選ぶことが望ましいと考えます。 | + | このコーパスは、日本語のレトリック全体の代表的なデータを収集することを視野に入れています。どのようなリソースから用例を収集すればよいかという、いわゆる「均衡性」の問題がありますが、少なくとも、年代とジャンルについては、バランスの取れたデータ収集源を選ぶことが望ましいと考えます。 |
ベータ版構築にあたり、日本近代文学から用例を収集しました。特に、著作権が既に切れており、『[[https://www.aozora.gr.jp/|青空文庫]]』に本文の電子テキストがあるものを選んでいます。これにより、本文手入力の問題と、著作権処理の問題を回避しました。 | ベータ版構築にあたり、日本近代文学から用例を収集しました。特に、著作権が既に切れており、『[[https://www.aozora.gr.jp/|青空文庫]]』に本文の電子テキストがあるものを選んでいます。これにより、本文手入力の問題と、著作権処理の問題を回避しました。 | ||
- | レトリックが使用されるジャンルは、文学だけではありません。少なくとも、以下のようなジャンルがデータ収集の対象になり得ます。 | + | もちろんレトリックが使用されるジャンルは、文学だけではありません。少なくとも、以下のようなジャンルがデータ収集の対象になり得ます。 |
* 伝記、ノンフィクション、エッセイ、評論、コラムなどの散文 | * 伝記、ノンフィクション、エッセイ、評論、コラムなどの散文 | ||
ライン 127: | ライン 136: | ||
===== コーパスの活用法 ===== | ===== コーパスの活用法 ===== | ||
- | このコーパスは、以下のようなレトリックについての言語研究の資料として用いることができます。 | + | このコーパスは、少なくとも以下のようなレトリック研究の資料として用いることができます。 |
* レトリック研究における例示 | * レトリック研究における例示 | ||
ライン 140: | ライン 149: | ||
* 修辞的効果の発生条件の解明 | * 修辞的効果の発生条件の解明 | ||
- | 将来的には、作家と作品のコーディングを利用して、文体論や文学の研究にも利用できる可能性があります。 | + | 作者と作品のコーディングを利用して、文体論や文学の研究にも利用できる可能性があります。 |
- | * 特定のレトリックをよく使う作家の特定 | + | * 特定のレトリックをよく使うジャンルの特定 |
- | * 作家の執筆時期ごとの文体的な遷移の分析 | + | * 作者の執筆時期ごとの文体的な遷移の分析 |
- | * 文学作品の歴史的背景と表現技法の関連の考察 | + | |
* 作品中に生起するレトリックの位置的分布の調査 | * 作品中に生起するレトリックの位置的分布の調査 | ||
ライン 158: | ライン 166: | ||
*2017年8月〜2017年9月(第2期): 用例収集と分析、意味のアノテーション基準の精緻化 | *2017年8月〜2017年9月(第2期): 用例収集と分析、意味のアノテーション基準の精緻化 | ||
*2017年11月〜2017年12月(第3期): 用例収集と分析、修辞性指標の記述フレームワーク開発 | *2017年11月〜2017年12月(第3期): 用例収集と分析、修辞性指標の記述フレームワーク開発 | ||
- | *2017年2月〜2017年3月(第4期): 用例収集と分析、収集例の傾向分析、記述フレームワークの整理と改訂 | + | *2018年2月〜2018年3月(第4期): 用例収集と分析、収集例の傾向分析、記述フレームワークの整理と改訂 |
*2019年1月〜2019年3月(第5期): Wikiでの実装、意味クラスページの導入、意味クラスの記述 | *2019年1月〜2019年3月(第5期): Wikiでの実装、意味クラスページの導入、意味クラスの記述 | ||
*2019年4月〜2019年6月(第6期): 意味クラスの記述、写像ページの機械生成 | *2019年4月〜2019年6月(第6期): 意味クラスの記述、写像ページの機械生成 |
最終更新: 2024/02/13 12:05