(Good-Poor analysis)も行い,識別の程度も精査しながら検討を行った。最後に,レベル6.テストの編集と合否分割点の設定ID,名前,正答率,識別力,出題形式,話題を集計し,正答率および識別力に問題のな目分析によって,項目別の正答率および識別力など項目情報を収集した。また,G-P 分析判定指標としての精度を検証するため,受験者の履修科目のレベルに応じて「日本語レベル 5 〜 6 相当」と「日本語レベル 7 以上」に分割し,2 群の総得点の分布を確認した 4)。予備調査と本調査 2 つの調査結果を分析した結果,概ね共通する結果が得られた。まず,受験者の得点分布を確認した結果,「読解」,「聴解」共に分布のピークは,やや高得点域に偏っており,受験者の能力に対して本テストがやや易しいことがわかった。また α係数を確認した結果,やや低い値であったが(予備調査:読解 0.71,聴解 0.83 /本調査:読解・聴解 0.85),実用に大きな支障を来たす値ではないと考えた。この 2 つの傾向は,予備調査時に比べ,本調査ではやや改善されていた。項目分析の結果,正答率は,「読解」,「聴解」共に 0.9 前後の項目が見られたものの,全員正答または誤答といった極端に問題がある項目は見られなかった。また,正答率の分布も易しい項目から難しい項目まで広がりが見られた。一方で,弁別性の指標となる点双列相関係数については,予備調査の結果では,全ての項目が目安となる 0.2 を上回っていたものの,本調査の結果では,聴解,読解共に 0.2 を下回る項目が数項目見られた。レベル判定指標としての精度については,回答を「日本語レベル 5 〜 6 相当」と「日本語 7 以上」の 2 群に分割し,群別の得点分布を比較した。その結果,ある一定の得点域において,各群の得点分布のピークが入れ替わっていることが確認できた。また,独立な 2群の t 検定により 2 群間の得点を比較した結果,「読解」,「聴解」共に,得点に有意な差が見られた。加えて,JLPT の N1 合格の有無に関する情報が得られた受験者(N=25)の得点分布を確認すると,得点上位者に集中している点も明らかになった。テストシステムの動作検証については,聴解の音声を聞くためのトラブルが生じた事例があったが,それ以外に大きな問題は生じなかった。受験時間は,読解が 30 分程度(20 分〜 60 分),聴読が 20 分程度(15 分 〜 60 分)で,項目を増やす余地は見られた。補足的な分析として,予備調査においては「読解」,「聴解」の得点と「文法・語彙」の得点との相関係数を確認した。その結果,いずれも中程度の相関(読解:r=0.38,聴解:r=0.58,N=25)が見られた。予備調査および本調査の結果に基づいて,テストの編集と合否分割点の設定を行った。本テストは,フォーム式(固定型)で,事前に可能な限り難易度が同等になるよう設計した複数のテストフォームを用意し,各学期で出題するフォームを変更する仕様とした。これにより,同一の受験者に対する項目の露出を最小限に抑え,日本語能力の測定精度の維持を目指した。テストフォームの編集に際しては,事前に項目プールとして,各項目のい項目を各テストフォームに振り分けた。その際,フォーム間の項目数は統一し,出題形式,話題,難易度の均一性も調整した。これをテストシステムにアップロードし,実施時期別に使用するフォームを変更することで,テストシステム上の準備が完了した。76早稲田日本語教育実践研究 第11号/2023/71―78
元のページ ../index.html#80