早稲田日本語教育実践研究 第11号
34/126

確認し,同一項目レベル内において極端に正答率が高い,または低い項目を特定した。また,項目の特性を示す GP 図 6)を作成し,項目分析の補助資料として活用した。弁別性については点双列相関から検討し,一部,全員正解の項目や点双列相関が 0.3 を下回る項目があったため,これらは項目の修正または以降の調査での使用対象外とした。2)レベル判定指標としての精度の検証は,調査協力者のレベル別に平均正答率を比較した 6)。その結果,調査協力者のレベルが高いほど平均正答率が高いことが明らかになった。課題として,予備調査の分析においては,一部のレベル間で正答率の差が見られないという結果が示されたが,この時点では,レベル別の調査協力者数が顕著に異なる不均衡な分析であったため,そのまま調査を継続した。試行調査の分析では,各レベル間に正答率の差が示され(p < .01),レベル判定指標としての精度が一定程度示された。ただし,総合日本語 1 の受験者における正答率の低さ,総合日本語 6 の受験者における正答率の高さも明らかになり,課題も残された。3)テストの妥当性の検証は,到達度テストとしての検証と熟達度テストとしての検証に分けて実施した。到達度テストとしては,内容的妥当性の検証として,試行調査に先立ち,総合日本語の各レベルコーディネーターを含む常勤教員全員により,CJL の学習内容との整合性,正答や誤答の確認,表記の適切さなどの観点から検討を行った。また,上述の項目レベル別正答率および調査協力者のレベル別の平均得点の結果,得点に関する妥当性の一端が示されたと考える。熟達度テストとしての妥当性は,基準関連妥当性,および構成概念妥当性の観点から行った。基準関連妥当性は,J-CAT の得点が提供された調査協力者(N = 25)の回答を使用し,本テストの得点と J-CAT の得点との相関係数を確認した。その結果,本テスト得点と J-CAT の総合得点および文法,語彙それぞれの得点の間には,高い相関が確認され,一定の基準関連妥当性が確認された。また,構成概念妥当性の検証のために因子分析を行い,スクリー基準に基づいた一次元性を確認した。テストの信頼性は α 係数を確認し,いずれの調査においても問題のない値であることも確認した(α > .90)。他にも,試行調査によって得られた情報は多岐に渡り,受験時間,テストシステムの動作,担当教員との情報共有方法,試行テスト実施に関するオペレーションなどが確認された。本テストの目的は,学習者が科目選択をする際の手がかりの 1 つとして,日本語レベルを判断するための指標を提供することである。そのためには,テストの得点が CJL においてどのレベルに相当するか,その解釈基準となる得点区分を提示する必要がある。言語テスト開発において,このような言語テストの得点区分をいかに設定するかについては,「規準設定(Standard setting)」や「分割点(Cut score)」などの用語が用いられ,様々な設定方法が提案されている(Angoff 1971,Zieky & Livingston 1977)が,完璧な方法は確立されておらず,複数の方法の組み合わせが賢明だとされる(ブラウン,J. D 1999)。本テストにおける得点の解釈基準の設定に際しては,19 年度と 20 年度で異なる基準を採用した。まず,19 年度においては,到達度テストとしての運用を想定し,目標規準準6.レベル判定のための解釈基準の設定30早稲田日本語教育実践研究 第11号/2023/23―38

元のページ  ../index.html#34

このブックを見る