第11回 コンピュータを使った言語調査
検索エンジンを使う
テキストエディタを使う
- K2Editor (K2さん) フリーソフト。複数テキストの一括検索 (行検索grep) ができる
- 検索テキスト (青空文庫)
※リンクを右クリックして「対象をファイルに保存」してください。認証が必要です。認証情報は授業の配布資料を参考にしてください。
オンラインで入手できる言語資料 (より詳細なリストは例えば「テキスト処理とコーパス言語学」(後藤斉先生)などにある)
言語コーパスのオンライン検索
- KOTONOHA「現代日本語書き言葉均衡コーパス」検索デモ (国立国語研究所)
- 日英対応付けコーパスの検索 (情報通信研究機構自然言語グループ)
- British National Corpus オンライン検索 (Mark Daviesさん, 英語)
- 国文学研究資料館本文データ検索システム (国文学研究資料館) 要ユーザ登録
第12回 コロケーションの分析
言語コーパスのオンライン検索 (コロケーションの分析機能をもつ)
- 「茶漉」一般公開版 (パデュー大学 深田淳先生)
コロケーションの分析ツール
- Colstat: 言語コロケーション統計指標自動計算Excelシート(β版)(神戸大学 石川慎一郎先生)
※ページを開いたら,「ダウンロード」のリンクを右クリックして「対象をファイルに保存」してください。出典論文:石川慎一郎(2006)「言語コーパスからのコロケーション検出の手法―基礎的統計値について―」『統計数理研究所共同研究レポート』pp. 1-14. - 共起関係の強さをはかる4種類のスコアの計算 (オンライン) (名古屋大学 杉浦正利先生)
※ブラウザによっては文字化けするかもしれません。エンコードを「日本語 (JIS-2022-JP)」にして読み直してください。 - Collocation Extractor (kameya_h さん)
※ここを右クリックして「対象をファイルに保存」してください。
検索テキスト (青空文庫)
※リンクを右クリックして「対象をファイルに保存」してください。認証が必要です。認証情報は授業の配布資料を参考にしてください。
- 夏目漱石 『こころ』ルビなし版 (Unicode, 337KB)
- 夏目漱石 『こころ』分かち書き版 (Unicode, 547KB)
- 形態素解析器 ChaSen 2.4.2 でルビなし版『こころ』を自動処理したもの
解析データ
※リンクを右クリックして「対象をファイルに保存」してください。認証が必要です。認証情報は授業の配布資料を参考にしてください。
- 「副詞+形容詞」の出現頻度と対応する副詞と形容詞の頻度数の一覧 (110KB)
抽出したコーパスの総語数は1,018,766です。
自然言語処理ツール:本格的な利用には,テキストデータ加工の技術 (プログラミング含む) が必要です
- 形態素解析器 ChaSen (奈良先端科学技術大学院大学)
- 形態素解析辞書 UniDic (千葉大学 伝康晴先生ほか)
- 形態素解析辞書 IPADIC (奈良先端科学技術大学院大学)