トップ * 研 究 * 講 義 * その他
AWKの備忘録 * Rの備忘録 * 文体調査1 * 文体調査2

awkとRによる、文体調査1

1. Biber(1988)の文体調査

 D. Biber(1988)の Variation across Speech and Writing は、67種類に及ぶ文体特性を調査に基づいて、多変量解析の一つの因子分析を用いて話し言葉と書き言葉の特徴づける試みがなされています。これらの調査項目はBiber(pp. 211-225)において比較的詳しく解説されていて、テキスト文体調査の基礎をなすものと考えられます。網羅的で大規模な文体調査を推し進めるならば、ジャンル・レジスターおよび著者によるテキストの特徴づけたり、分類したり、相互関連の程度を解析することも可能となると期待できそうです。

 ここでは、無料で入手可能な資料やツールを用いて、一定程度本格的なテキスト文体調査が実施可能であることを例示していきたいと思います。ただし、ここではあくまでも趣味としての試みとして位置づけているので、論文として発表するような精密さ、厳密さを追求するものではありません。

2. 調査対象テキストの準備

 調査対象のテキストとして、Project Gutenbergから入手可能な英語テキストのうち、19〜20世紀前半に書かれた現代英語の小説を選んでいます。著者による文体特性の特徴を比較できるように、10作品前後が入手できる作家に絞りました。Project Gutenberg からダウンロードした後、これらのテキストから本文以外の部分を除去してあります。

3. テキストへの品詞タグ付け

 Biberの67項目のうち、実際に頻度調査を行う際に、対象テキストが品詞タグ付けられていることを必要とする項目が殆どです。テキストの品詞タグ付けは、大阪大学の後藤一章氏が開発された GoTagger を利用させていただきました。GoTagger は、Eric Brill氏開発したBrill Tagger による品詞タグ付けを、Windows上で作業可能にしたGUI アプリケーションです。
 Brill Tagger は基本的に規則に基づいて品詞タグ付を行います。タグ付の際に参照する一連の規則(語彙規則、文脈規則、bigramリスト等)を書いたファイルは、ソフトに同梱されている状態ですと、高精度のタグ付はあまり期待できません。とは言っても、規則の追加、修正という作業はかなりデリケートですので、ここでは、Biberの文体特性項目に特に関わりの深いものだけに限って、最小限の修正を施すようにします。

4. タグ付けテキストの整形

 調査項目の頻度調査作業は、AWKというテキスト処理ツールを使って、作業スクリプトを作成し、それを対象ファイルに適用します。これは、UNIX用に開発されたものをWindowsのコマンドプロンプト上でも動作するように移植されたものを使います。さまざまな変種がありますが、ダウンロード後awk.exeと名称を変更し、そのフォルダをPathに登録しておきます。(より詳しくは「AWKの備忘録」をご覧ください。)

 AWKによる最初の作業は、品詞タグのついた対象ファイルをさらに加工整形して、頻度調査を行い易くすることです。