TRFは、与えられた日本語テキストに対して、種々の読みやすさ指標を自動で計算し、出力するツールです。
Dockerイメージpecorarista/conda-knpを使うと便利です。
git clone https://github.com/aistairc/trf.git
cd trf
./download.sh
テキストを直接与えて実行する場合
echo 'ごはんを食べるつもりです。' | python3 -m trf
テキストファイルを指定して実行する場合
python3 -m trf -f FILENAME
TRFは大きく分けて、基本指標
、語彙に基づく指標
、統語情報に基づく指標
、言語モデルに基づく指標
の4種類をサポートしています。
現在サポートしている指標の一覧とその説明は、下記の通りです。
指標名 | 指標の説明 |
---|---|
文数 | テキストに含まれる文の総数 |
平均文長 | 各文に含まれる形態素数の平均 |
トークン数 | テキストに含まれる単語のトークン数 |
タイプ数 | テキストに含まれる単語のタイプ数 |
指標名 | 指標の説明 |
---|---|
品詞 | テキストに含まれる単語の品詞の割合 |
語彙の具体度 | テキストに含まれる名詞の上位語数の割合 |
指標名 | 指標の説明 |
---|---|
仮定節 | 仮定節が含まれる文の割合 |
係り受け木の深さ | 各文の係り受け木の深さの最大値の平均 |
モダリティ | 各種モダリティが含まれる文の割合 |
指標名 | 指標の説明 |
---|---|
容認度 (LogProb) | |
容認度 (Mean LP) | |
容認度 (Norm LP (Div)) | |
容認度 (Norm LP (Sub)) | |
容認度 (SLOR: Syntactic Log-Odds Ratio) |
詳細については Lau et al. (2015) をご参照ください。
本ツールについて、さらに詳細な情報が知りたい場合は「TRF: テキストの読みやすさ解析ツール」[PDF] をご参照ください。
@inproceedings{watanabe2017,
author={渡邉亮彦 and 村上聡一朗 and 宮澤彬 and 五島圭一 and 柳瀬利彦 and 高村大也 and 宮尾祐介},
title={{TRF}: テキストの読みやすさ解析ツール},
booktitle={言語処理学会第23回年次大会発表論文集},
year={2017},
pages={477--480}
}