× r s ¹ Ñ Ä ¢ ¤ ; m h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± o t h þ ° a q è ¢ Û ... ·...

8
放射線画像の主観的評価方法としては,receiver operating characteristic (ROC) 解 析,ま た は free- response ROC(FROC)解析が世界的に広く用いられ ており,これらの評価法から得られ,そして,統計的 有意差検定によって証明されたデータの信頼性は高 1) .しかし,その一方で,ROC 解析・FROC 解析の 観察者実験を実施するためには,検出(または鑑別)が 非常に困難な信号(病変)を含む画像を試料として用意 する必要があり,この作業が時間的にも物理的にも観 察者実験の実施を困難にしている 2) ROC 解析・FROC 解析以外では,放射線画像の主観 的評価法として,一対比較法という評価法が古くから 提唱されている 3~5) .一対比較法は,一般的には,ある 個数の試料について,その全体の中から 2 個ずつ取り 出して比較し,すべての試料対の組み合わせの結果を 総合して全体の試料を評価する方法で 6) ,ROC 解析・ FROC 解析のように,病変の検出や鑑別といった診断 の正確さを直接的に評価することはできないが,二つ 以上のシステムから作成された画像を比較し,それら 32 日本放射線技術学会雑誌 自動解析ソフトウエアを用いたシェッフェの 一対比較法による画像評価:撮影線量を模擬的に変化させた CT 画像の比較評価 白石順二 1 岡崎友香 2 後藤 3 1 熊本大学大学院生命科学研究部 2 神戸大学医学部附属病院放射線部 3 熊本大学医学部附属病院中央放射線部 論文受付 2018 年 5 月 30 日 論文受理 2018 年 10 月 10 日 Code No. 522 Image Evaluation with Paired Comparison Method Using Automatic Analysis Software: Comparison of CT Images with Simulated Levels of Exposure Dose Junji Shiraishi, 1Yuuka Okazaki, 2 and Makoto Goto 3 1 Faculty of Life Sciences, Kumamoto University 2 Department of Radiology, Kobe University Hospital 3 Department of Radiology, Kumamoto University Hospital Received May 30, 2018; Revision accepted October 10, 2018 Code No. 522 Summary To simplify a procedure of the observer study with Ura’s method of Scheffé’s paired comparison and to improve experimental accuracy, we developed a software package to automatically analyze observer study data obtained by using a computer interface developed specially for the ROC observer study. Simulated low-dose CT images were used to demonstrate practical utility of this proposed method with a software package, in terms of a statistical analysis of the change of noise property due to the change of exposure dose. Six radiological technologists were participated in this observer study and compared each of six sample images selected at lower lung and liver slices with dose levels of 100, 80, 60, 40, 20, 10% per case. In the statistical analysis, the average psychological measures were highly correlated with the dose levels (lower lungs: R=0.95, liver: R=0.99). In addition, there were statistically significant differences in all combination of dose levels in liver slices. In conclusion, we demonstrated practical utility of this proposed method in terms of simplification of experimental procedure and the consistency of the analytic results. Key words: paired comparison, receiver operating characteristic analysis, observer study, low-dose CT simulation *Proceeding author ノート

Upload: others

Post on 27-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

緒 言放射線画像の主観的評価方法としてはreceiver

operating characteristic (ROC) 解 析または free-response ROC(FROC)解析が世界的に広く用いられておりこれらの評価法から得られそして統計的有意差検定によって証明されたデータの信頼性は高い1)しかしその一方でROC解析FROC解析の観察者実験を実施するためには検出(または鑑別)が非常に困難な信号(病変)を含む画像を試料として用意する必要がありこの作業が時間的にも物理的にも観

察者実験の実施を困難にしている2)ROC解析FROC解析以外では放射線画像の主観

的評価法として一対比較法という評価法が古くから提唱されている3~5)一対比較法は一般的にはある個数の試料についてその全体の中から 2個ずつ取り出して比較しすべての試料対の組み合わせの結果を総合して全体の試料を評価する方法で6)ROC解析FROC解析のように病変の検出や鑑別といった診断の正確さを直接的に評価することはできないが二つ以上のシステムから作成された画像を比較しそれら

32

日本放射線技術学会雑誌

自動解析ソフトウエアを用いたシェッフェの一対比較法による画像評価撮影線量を模擬的に変化させた

CT画像の比較評価

白石順二1 岡崎友香2 後藤 淳3

1熊本大学大学院生命科学研究部2神戸大学医学部附属病院放射線部3熊本大学医学部附属病院中央放射線部

論文受付2018 年 5 月 30 日

論文受理2018 年 10 月 10 日Code No 522

Image Evaluation with Paired ComparisonMethod Using Automatic Analysis SoftwareComparison of CT Images with Simulated Levels of Exposure DoseJunji Shiraishi1 Yuuka Okazaki2 and Makoto Goto3

1 Faculty of Life Sciences Kumamoto University2 Department of Radiology Kobe University Hospital3 Department of Radiology Kumamoto University Hospital

Received May 30 2018 Revision accepted October 10 2018Code No 522

Summary

To simplify a procedure of the observer study with Urarsquos method of Scheffeacutersquos paired comparison and toimprove experimental accuracy we developed a software package to automatically analyze observer study dataobtained by using a computer interface developed specially for the ROC observer study Simulated low-dose CTimages were used to demonstrate practical utility of this proposed method with a software package in terms of astatistical analysis of the change of noise property due to the change of exposure dose Six radiological technologistswere participated in this observer study and compared each of six sample images selected at lower lung and liverslices with dose levels of 100 80 60 40 20 10 per case In the statistical analysis the average psychologicalmeasures were highly correlated with the dose levels (lower lungs R=095 liver R=099) In addition there werestatistically significant differences in all combination of dose levels in liver slices In conclusion we demonstratedpractical utility of this proposed method in terms of simplification of experimental procedure and the consistency ofthe analytic results

Key words paired comparison receiver operating characteristic analysis observer study low-dose CT simulation

Proceeding author

ノート

をある特定の判断基準において順位付けすることが可能である例えば撮影線量の最適化において線量を変化させて作成した試料で ROC 観察者実験を実施し診断能において統計的有意差が認められる線量レベルを証明することは非常に困難であるがある特定の部位の読影における線量変化に起因するノイズの違いを一対比較法で比較評価し統計的有意差の有無を証明することは可能であるこれまでに放射線画像の評価に応用された一対比較

法ではサーストン(Thurstone)の一対比較法4)シェッフェ(Scheffeacute)の一対比較法5)が代表的で前者が試料内の順位のみを決定する評価法であるのに比べて後者は順位に加えてその差の程度も算出するので得られた結果の理解が容易であるシェッフェの一対比較法のオリジナルはシェッフェによって官能検査のために開発され1952 年に報告されたが7)その後国内で浦の変法8)と中屋の変法9)が報告されたどちらの変法もすべての試料の組み合わせを一人の観察者が比較する点は共通だが浦の変法が順序効果(位置効果)を考慮しているのに対し中屋の変法はそれを考慮していないシェッフェの一対比較法の浦の変法(以後シェッ

フェ-浦法)の実験方法および実験結果の解析方法については中前や高木らによる解説書が存在するが6 10)試料枚数が多く更に観察者が複数の場合にはそのデータ管理と観察者実験後のデータ解析が煩雑でエクセル等のワークシートプログラムを用いた処理では間違いが生じる可能性があるそこで本研究ではシェッフェ-浦法による観察者実験の簡略化と実験精度の向上を目的としてROC 観察者実験用に開発されたソフトウエアとそこから得られた観

察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発しそれらを用いて模擬的に作成した低線量CT画像の比較評価を行うことで本手法の整合性を検証したので報告する

1方 法1-1 シェッフェの一対比較法(浦の変法)と自動解析

ソフト比較評価したい試料画像を t 枚用意しそれをN人

の観察者のうちの観察者 kが左右それぞれに提示された試料画像 ij を比較してそれに対する評点 xijkを与えた場合試料画像 i に対する観察者 kの嗜好度ikは以下の(1)式によって求められる

ik=1048625

1048626 1048616ik-ik1048617 (1)

ここでikは画像 i が左に提示された場合の観察者 kのすべての評点の和を意味し同様にikは画像i が右に提示された場合の評点の和を指すそして各観察者について求めた嗜好度から試料ごとの平均値を算出することで個々の試料のシェッフェ-浦法における平均嗜好度 i1049286 が求められる次に個々の平均嗜好度間の統計的有意差について

示すTable 1 にシェッフェ-浦法における分散分析を行う場合の分散分析表を示す10)最初にこの分散分析表に従って観察者実験で得られた結果の主効果(main effect)の統計的有意差検定を行うために誤差の自由度(fe)と分散(Ve)を分散分析表に従って求める仮に有意水準を 5とした場合それぞれ要因のF-ratio から求めた p 値が 005 未満であれば統計的に有意と判断するこのとき主効果で示される擬似

33

Vol 75 No 1 Jan 2019

Table 1 ANOVA table used in Urarsquos method

Source of variation Sum of squares Degree of freedom Variance F-ratioMain effect

=

1057297

=-

ɑ=- ɑ=ɑɑ ɑ1048623

Main effectacuteReader=

1057297

=1057297

=-

-ɑ=-- ɑ=ɑɑ ɑ110852011085211048623

Sample combination=

1057297

=1057297

=+-

-γ= -- γ=γγ γ1048623

Sample location=

-

= = 1048623

ReaderacuteSample location=

- 1057297

=

-=- = 110852011085211048623

Error =----- = - -- =1048623

Total =1057297

=1057297

=1057297

=

=-

的な線量低減による効果だけでなく観察者間の効果(reader)画像の組み合わせ効果(sample combina-tion)画像の提示における位置の効果(sample loca-tion)に統計的有意差があるかを確認する主効果で示される効果以外の要因で例えば観察者間の効果に統計的有意差が認められた場合には特定の観察者が嗜好度を引き上げるなどのバイアスの可能性を確認しその原因を考察する実験実施者が注目する主効果に統計的有意差が認められる場合には誤差変動を超えた差異があるものと判断するその後多重比較法により以下の式から yardstick(Y005)を求め平均嗜好度の 95信頼区間または二つの平均嗜好度間の差の 95信頼区間による統計的有意差検定を行う10 11)

005=0051048616 1048620 1048617

1048626 (2)

ここで0051048616 1048620 1048617は多重比較法のTukey 法12)で用いられるステューデント化された範囲の表から求めた試料数 t自由度 の場合の q 値を示す平均嗜好度の 95信頼区間は平均嗜好度から yardstick(Y005)を差分加算した値が 95信頼区間の下限上限となり二つの平均嗜好度間の差から yardstick(Y005)を差分加算した 95信頼区間に 00 が含まれるか(有意差なし)含まれないか(有意差あり)で統計的有意差検定を行う本研究では前述のシェッフェ‐浦法の理論に従っ

て複数の観察者により得られた一対比較法の評価データを自動的に解析して分散分析による主効果の統計的有意差検定を行った後に各試料間の平均嗜好度と yardstick を算出し統計的有意差検定の結果を出力するソフトウエアを開発した開発環境はOSが Windows10 で開発ソフトウエア Visual Studio2017(Microsoft 社)の C++を使用しROC観察者実験用に開発されたROC Viewer13)の出力ファイルを利用して入力ファイルとすることを可能としたソフトウエアはコマンドプロンプト上で動作する開発した自動解析ソフトウエアを検証するため本

実験のデータ解析を行う前に市販されている統計ソフトウエア(エクセル統計社会情報サービス2016)の無料体験版に付属の一対比較法の浦の変法用のサンプルデータを用いて市販ソフトウエアの出力結果と理論に従って表計算ソフトウエア Excel 2016(Microsoft 社)を用いて計算した結果そして本ソフトウエアによる計算結果が完全に一致することを確認したなおソフトウエアの出力は各観察者の評定

から算出した各試料の嗜好度(Fig 1a)観察者全体について算出した各試料の平均嗜好度(Fig 1b)分散分析による統計的有意差検定の結果(Fig 1c)そして試料間の統計的有意差検定の結果(Fig 1d)とした

1-2 模擬低線量 CT画像による一対比較評価法1-2-1 試料当院において肺生検前に通常線量(120 kV186

mAs)で撮影された臨床 CT 画像 5 例を使用したなおすべての症例は診療目的で撮像されたものであり本研究への使用にあたっては本院の倫理審査委員会の承認を得た観察者実験では通常線量で撮影された CT画像か

らコンピュータシミュレーションにより通常線量の8060402010の模擬低線量 CT画像を再構成しそれらの画像に含まれるノイズの見えやすさを比較対象としたFigure 2 に模擬低線量CT画像作成のシミュレーション手法を示す14)本手法では最初に標準線量で実際に撮影された

CT画像(Fig 2 ①)からforward projection(順投影)によってサイノグラムを再現する(Fig 2 ②)次にそのサイノグラムに計算によってノイズを加える(Fig 2 ③)このとき計算に用いるパラメータを変化させることで任意の低線量の画像が作成可能となるその後filtered back projection(逆投影)することでノイズ CT画像を再構成する(Fig 2 ④)最後に①の画像に④の画像を足し合わせることにより模擬低線量CT画像を作成する(Fig 2 ⑤)一対比較法の観察者実験に用いる試料は症例ごと

に肝臓部と肺野部の断面のCT像についてオリジナル像(100)と80から 10の模擬低線量 CT画像5 枚を用意し計 60 枚(5 例acute6 線量acute2 部位)としたなお一対比較法としては一人の患者の六つの線量レベルの画像から 2 枚を取り出して行う評価(6acute5=30通りの組み合わせ)を 10 通り(5 例acute2 部位)行い部位別に 5症例の平均を求めて評価したある患者の肝臓部における試料 6枚の一例をFig 3 に示す1-2-2 ROC Viewerを用いた観察者実験ROC Viewer は ROC 観察者実験用に開発されたソ

フトウエアであるが2画像を同時に表示することが可能なため一対比較法にも適用可能であるただし一対比較法の観察者実験への適用にあたっては通常は信号の存在の確信度に用いられる評定のスケールを左右の画像のどちらの方がノイズの少ない画像かという設問に対する回答に置き換える必要がある(Fig 4)なおROCViewer の評定値の出力は通常

34

日本放射線技術学会雑誌

35

Vol 75 No 1 Jan 2019

Fig 1 (a) Example of computer output of a paired comparison observer study obtained from single observerand six case samples(b) Example of computer output of paired comparison observer studies obtainedfrom five observers and six case samples (c) Example of computer output of two-way analysis ofvariance (ANOVA) for testing average psychological measures obtained from a paired comparisonobserver study (d) Example of computer output of statistically significant test results using amultiple comparison method with a yardstick value (plt005) SIG statistically significant

a

b

c

d

はスケールの左端が「信号が絶対に存在しない(00)」で右端が「信号が絶対に存在する(10)」であるが一対比較法への適用においてはスケールの中央を 00 としそこから左右に向かう値を各試料の評定とした例えば観察者が左右の画像を見比べて右の画像の方が明らかにノイズが少ないと判断してスケールの右端を選択した場合右の試料画像に対する評定値は 05 であり逆に左の試料画像に対する評定値は-05 となるまたどちらもノイズに差がないと判断してスケールの真ん中を選択した場合は左右の画像共に評定値は 00 となる観察者実験には CT画像読影の経験が 2 年以上の 6

名の診療放射線技師(経験年数2ndash21 years平均

102 years)が参加した観察者実験の実施にあたっては本院の倫理審査委員会の承認を得たうえで各観察者には事前にインフォームドコンセントを得た一対比較法における観察者実験ではCT画像表示

のウインドウ幅(WW)とウインドウレベル(WL)が変化するとそれが評価結果に影響を与えるので肝臓部肺野部の表示条件(WW WL)はそれぞれ(300 40)(1500 -600)ですべての症例について一定とした

2結 果Table 2 に 5 例の患者の下肺野および肝臓部の CT

像についてシミュレーションにより撮影線量レベル

36

日本放射線技術学会雑誌

Fig 2 Computerized procedure for reconstructing quasi-low-dose CT images

Fig 3 Examples of case samples for the paired comparison observer studyFive simulated low-dose CT images were reconstructed from thestandard-dose CT image (100)

を 100から 10まで変化させて作成した画像のノイズ特性に関する平均嗜好度および各症例におけるyardstick を示す各平均嗜好度は6名の観察者から

得られた嗜好度の平均でありカッコ内にその標準偏差を示す各症例についての分散分析ではすべての症例について平均嗜好度に統計的に有意な差があるこ

37

Vol 75 No 1 Jan 2019

Fig 4 Display of ROC Viewer for comparing two CT images in terms ofnoise appearances due to the low-dose setting

Table 2 Average psychological measures (95 confidence interval CI) and yardsticks for six patients obtained from a pairedcomparison observer study using five case samples with various exposure dose level (10 20 40 60 80 and 100)

A Lower LungDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0172 [-0252 -0092] -0077 [-0157 0003] -0005 [-0085 0075]PT2 -0157 [-0229 -0085] -0091 [-0163 -0019] 0022 [-0050 0094]PT3 -0171 [-0239 -0103] -0097 [-0165 -0029] 0007 [-0061 0075]PT4 -0216 [-0295 -0137] -0054 [-0133 0025] 0007 [-0072 0086]PT5 -0194 [-0290 -0098] -0088 [-0184 0008] -0014 [-0110 0082]Ave -0182 -0081 0003

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0045 [-0035 0125] 0093 [0013 0173] 0117 [0037 0197] 0080PT2 0031 [-0041 0103] 0086 [0014 0158] 0110 [0038 0182] 0072PT3 0062 [-0006 0130] 0104 [0036 0172] 0094 [0026 0162] 0068PT4 0037 [-0042 0116] 0102 [0023 0181] 0124 [0045 0203] 0079PT5 0068 [-0028 0164] 0088 [-0008 0184] 0140 [0044 0236] 0096Ave 0049 0095 0117

B LiverDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0261 [-0316 -0206] -0181 [-0236 0126] -0046 [-0101 0009]PT2 -0291 [-0348 -0234] -0163 [-0220 -0106] -0035 [-0092 0022]PT3 -0304 [-0359 -0249] -0174 [-0229 -0119] -0055 [-0110 0000]PT4 -0289 [-0338 -0240] -0169 [-0218 -0120] -0050 [-0099 -0001]PT5 -0285 [-0339 -0231] -0158 [-0212 -0104] -0054 [-0108 0000]Ave -0286 -0169 -0048

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0067 [0012 0122] 0178 [0123 0233] 0243 [0188 0298] 0055PT2 0053 [-0004 0110] 0185 [0128 0242] 0251 [0194 0308] 0057PT3 0076 [0021 0131] 0193 [0138 0248] 0264 [0209 0319] 0055PT4 0079 [0030 0128] 0160 [0111 0209] 0268 [0219 0317] 0049PT5 0072 [0018 0126] 0157 [0103 0211] 0268 [0214 0322] 0054Ave 0069 0175 0259

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 2: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

をある特定の判断基準において順位付けすることが可能である例えば撮影線量の最適化において線量を変化させて作成した試料で ROC 観察者実験を実施し診断能において統計的有意差が認められる線量レベルを証明することは非常に困難であるがある特定の部位の読影における線量変化に起因するノイズの違いを一対比較法で比較評価し統計的有意差の有無を証明することは可能であるこれまでに放射線画像の評価に応用された一対比較

法ではサーストン(Thurstone)の一対比較法4)シェッフェ(Scheffeacute)の一対比較法5)が代表的で前者が試料内の順位のみを決定する評価法であるのに比べて後者は順位に加えてその差の程度も算出するので得られた結果の理解が容易であるシェッフェの一対比較法のオリジナルはシェッフェによって官能検査のために開発され1952 年に報告されたが7)その後国内で浦の変法8)と中屋の変法9)が報告されたどちらの変法もすべての試料の組み合わせを一人の観察者が比較する点は共通だが浦の変法が順序効果(位置効果)を考慮しているのに対し中屋の変法はそれを考慮していないシェッフェの一対比較法の浦の変法(以後シェッ

フェ-浦法)の実験方法および実験結果の解析方法については中前や高木らによる解説書が存在するが6 10)試料枚数が多く更に観察者が複数の場合にはそのデータ管理と観察者実験後のデータ解析が煩雑でエクセル等のワークシートプログラムを用いた処理では間違いが生じる可能性があるそこで本研究ではシェッフェ-浦法による観察者実験の簡略化と実験精度の向上を目的としてROC 観察者実験用に開発されたソフトウエアとそこから得られた観

察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発しそれらを用いて模擬的に作成した低線量CT画像の比較評価を行うことで本手法の整合性を検証したので報告する

1方 法1-1 シェッフェの一対比較法(浦の変法)と自動解析

ソフト比較評価したい試料画像を t 枚用意しそれをN人

の観察者のうちの観察者 kが左右それぞれに提示された試料画像 ij を比較してそれに対する評点 xijkを与えた場合試料画像 i に対する観察者 kの嗜好度ikは以下の(1)式によって求められる

ik=1048625

1048626 1048616ik-ik1048617 (1)

ここでikは画像 i が左に提示された場合の観察者 kのすべての評点の和を意味し同様にikは画像i が右に提示された場合の評点の和を指すそして各観察者について求めた嗜好度から試料ごとの平均値を算出することで個々の試料のシェッフェ-浦法における平均嗜好度 i1049286 が求められる次に個々の平均嗜好度間の統計的有意差について

示すTable 1 にシェッフェ-浦法における分散分析を行う場合の分散分析表を示す10)最初にこの分散分析表に従って観察者実験で得られた結果の主効果(main effect)の統計的有意差検定を行うために誤差の自由度(fe)と分散(Ve)を分散分析表に従って求める仮に有意水準を 5とした場合それぞれ要因のF-ratio から求めた p 値が 005 未満であれば統計的に有意と判断するこのとき主効果で示される擬似

33

Vol 75 No 1 Jan 2019

Table 1 ANOVA table used in Urarsquos method

Source of variation Sum of squares Degree of freedom Variance F-ratioMain effect

=

1057297

=-

ɑ=- ɑ=ɑɑ ɑ1048623

Main effectacuteReader=

1057297

=1057297

=-

-ɑ=-- ɑ=ɑɑ ɑ110852011085211048623

Sample combination=

1057297

=1057297

=+-

-γ= -- γ=γγ γ1048623

Sample location=

-

= = 1048623

ReaderacuteSample location=

- 1057297

=

-=- = 110852011085211048623

Error =----- = - -- =1048623

Total =1057297

=1057297

=1057297

=

=-

的な線量低減による効果だけでなく観察者間の効果(reader)画像の組み合わせ効果(sample combina-tion)画像の提示における位置の効果(sample loca-tion)に統計的有意差があるかを確認する主効果で示される効果以外の要因で例えば観察者間の効果に統計的有意差が認められた場合には特定の観察者が嗜好度を引き上げるなどのバイアスの可能性を確認しその原因を考察する実験実施者が注目する主効果に統計的有意差が認められる場合には誤差変動を超えた差異があるものと判断するその後多重比較法により以下の式から yardstick(Y005)を求め平均嗜好度の 95信頼区間または二つの平均嗜好度間の差の 95信頼区間による統計的有意差検定を行う10 11)

005=0051048616 1048620 1048617

1048626 (2)

ここで0051048616 1048620 1048617は多重比較法のTukey 法12)で用いられるステューデント化された範囲の表から求めた試料数 t自由度 の場合の q 値を示す平均嗜好度の 95信頼区間は平均嗜好度から yardstick(Y005)を差分加算した値が 95信頼区間の下限上限となり二つの平均嗜好度間の差から yardstick(Y005)を差分加算した 95信頼区間に 00 が含まれるか(有意差なし)含まれないか(有意差あり)で統計的有意差検定を行う本研究では前述のシェッフェ‐浦法の理論に従っ

て複数の観察者により得られた一対比較法の評価データを自動的に解析して分散分析による主効果の統計的有意差検定を行った後に各試料間の平均嗜好度と yardstick を算出し統計的有意差検定の結果を出力するソフトウエアを開発した開発環境はOSが Windows10 で開発ソフトウエア Visual Studio2017(Microsoft 社)の C++を使用しROC観察者実験用に開発されたROC Viewer13)の出力ファイルを利用して入力ファイルとすることを可能としたソフトウエアはコマンドプロンプト上で動作する開発した自動解析ソフトウエアを検証するため本

実験のデータ解析を行う前に市販されている統計ソフトウエア(エクセル統計社会情報サービス2016)の無料体験版に付属の一対比較法の浦の変法用のサンプルデータを用いて市販ソフトウエアの出力結果と理論に従って表計算ソフトウエア Excel 2016(Microsoft 社)を用いて計算した結果そして本ソフトウエアによる計算結果が完全に一致することを確認したなおソフトウエアの出力は各観察者の評定

から算出した各試料の嗜好度(Fig 1a)観察者全体について算出した各試料の平均嗜好度(Fig 1b)分散分析による統計的有意差検定の結果(Fig 1c)そして試料間の統計的有意差検定の結果(Fig 1d)とした

1-2 模擬低線量 CT画像による一対比較評価法1-2-1 試料当院において肺生検前に通常線量(120 kV186

mAs)で撮影された臨床 CT 画像 5 例を使用したなおすべての症例は診療目的で撮像されたものであり本研究への使用にあたっては本院の倫理審査委員会の承認を得た観察者実験では通常線量で撮影された CT画像か

らコンピュータシミュレーションにより通常線量の8060402010の模擬低線量 CT画像を再構成しそれらの画像に含まれるノイズの見えやすさを比較対象としたFigure 2 に模擬低線量CT画像作成のシミュレーション手法を示す14)本手法では最初に標準線量で実際に撮影された

CT画像(Fig 2 ①)からforward projection(順投影)によってサイノグラムを再現する(Fig 2 ②)次にそのサイノグラムに計算によってノイズを加える(Fig 2 ③)このとき計算に用いるパラメータを変化させることで任意の低線量の画像が作成可能となるその後filtered back projection(逆投影)することでノイズ CT画像を再構成する(Fig 2 ④)最後に①の画像に④の画像を足し合わせることにより模擬低線量CT画像を作成する(Fig 2 ⑤)一対比較法の観察者実験に用いる試料は症例ごと

に肝臓部と肺野部の断面のCT像についてオリジナル像(100)と80から 10の模擬低線量 CT画像5 枚を用意し計 60 枚(5 例acute6 線量acute2 部位)としたなお一対比較法としては一人の患者の六つの線量レベルの画像から 2 枚を取り出して行う評価(6acute5=30通りの組み合わせ)を 10 通り(5 例acute2 部位)行い部位別に 5症例の平均を求めて評価したある患者の肝臓部における試料 6枚の一例をFig 3 に示す1-2-2 ROC Viewerを用いた観察者実験ROC Viewer は ROC 観察者実験用に開発されたソ

フトウエアであるが2画像を同時に表示することが可能なため一対比較法にも適用可能であるただし一対比較法の観察者実験への適用にあたっては通常は信号の存在の確信度に用いられる評定のスケールを左右の画像のどちらの方がノイズの少ない画像かという設問に対する回答に置き換える必要がある(Fig 4)なおROCViewer の評定値の出力は通常

34

日本放射線技術学会雑誌

35

Vol 75 No 1 Jan 2019

Fig 1 (a) Example of computer output of a paired comparison observer study obtained from single observerand six case samples(b) Example of computer output of paired comparison observer studies obtainedfrom five observers and six case samples (c) Example of computer output of two-way analysis ofvariance (ANOVA) for testing average psychological measures obtained from a paired comparisonobserver study (d) Example of computer output of statistically significant test results using amultiple comparison method with a yardstick value (plt005) SIG statistically significant

a

b

c

d

はスケールの左端が「信号が絶対に存在しない(00)」で右端が「信号が絶対に存在する(10)」であるが一対比較法への適用においてはスケールの中央を 00 としそこから左右に向かう値を各試料の評定とした例えば観察者が左右の画像を見比べて右の画像の方が明らかにノイズが少ないと判断してスケールの右端を選択した場合右の試料画像に対する評定値は 05 であり逆に左の試料画像に対する評定値は-05 となるまたどちらもノイズに差がないと判断してスケールの真ん中を選択した場合は左右の画像共に評定値は 00 となる観察者実験には CT画像読影の経験が 2 年以上の 6

名の診療放射線技師(経験年数2ndash21 years平均

102 years)が参加した観察者実験の実施にあたっては本院の倫理審査委員会の承認を得たうえで各観察者には事前にインフォームドコンセントを得た一対比較法における観察者実験ではCT画像表示

のウインドウ幅(WW)とウインドウレベル(WL)が変化するとそれが評価結果に影響を与えるので肝臓部肺野部の表示条件(WW WL)はそれぞれ(300 40)(1500 -600)ですべての症例について一定とした

2結 果Table 2 に 5 例の患者の下肺野および肝臓部の CT

像についてシミュレーションにより撮影線量レベル

36

日本放射線技術学会雑誌

Fig 2 Computerized procedure for reconstructing quasi-low-dose CT images

Fig 3 Examples of case samples for the paired comparison observer studyFive simulated low-dose CT images were reconstructed from thestandard-dose CT image (100)

を 100から 10まで変化させて作成した画像のノイズ特性に関する平均嗜好度および各症例におけるyardstick を示す各平均嗜好度は6名の観察者から

得られた嗜好度の平均でありカッコ内にその標準偏差を示す各症例についての分散分析ではすべての症例について平均嗜好度に統計的に有意な差があるこ

37

Vol 75 No 1 Jan 2019

Fig 4 Display of ROC Viewer for comparing two CT images in terms ofnoise appearances due to the low-dose setting

Table 2 Average psychological measures (95 confidence interval CI) and yardsticks for six patients obtained from a pairedcomparison observer study using five case samples with various exposure dose level (10 20 40 60 80 and 100)

A Lower LungDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0172 [-0252 -0092] -0077 [-0157 0003] -0005 [-0085 0075]PT2 -0157 [-0229 -0085] -0091 [-0163 -0019] 0022 [-0050 0094]PT3 -0171 [-0239 -0103] -0097 [-0165 -0029] 0007 [-0061 0075]PT4 -0216 [-0295 -0137] -0054 [-0133 0025] 0007 [-0072 0086]PT5 -0194 [-0290 -0098] -0088 [-0184 0008] -0014 [-0110 0082]Ave -0182 -0081 0003

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0045 [-0035 0125] 0093 [0013 0173] 0117 [0037 0197] 0080PT2 0031 [-0041 0103] 0086 [0014 0158] 0110 [0038 0182] 0072PT3 0062 [-0006 0130] 0104 [0036 0172] 0094 [0026 0162] 0068PT4 0037 [-0042 0116] 0102 [0023 0181] 0124 [0045 0203] 0079PT5 0068 [-0028 0164] 0088 [-0008 0184] 0140 [0044 0236] 0096Ave 0049 0095 0117

B LiverDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0261 [-0316 -0206] -0181 [-0236 0126] -0046 [-0101 0009]PT2 -0291 [-0348 -0234] -0163 [-0220 -0106] -0035 [-0092 0022]PT3 -0304 [-0359 -0249] -0174 [-0229 -0119] -0055 [-0110 0000]PT4 -0289 [-0338 -0240] -0169 [-0218 -0120] -0050 [-0099 -0001]PT5 -0285 [-0339 -0231] -0158 [-0212 -0104] -0054 [-0108 0000]Ave -0286 -0169 -0048

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0067 [0012 0122] 0178 [0123 0233] 0243 [0188 0298] 0055PT2 0053 [-0004 0110] 0185 [0128 0242] 0251 [0194 0308] 0057PT3 0076 [0021 0131] 0193 [0138 0248] 0264 [0209 0319] 0055PT4 0079 [0030 0128] 0160 [0111 0209] 0268 [0219 0317] 0049PT5 0072 [0018 0126] 0157 [0103 0211] 0268 [0214 0322] 0054Ave 0069 0175 0259

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 3: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

的な線量低減による効果だけでなく観察者間の効果(reader)画像の組み合わせ効果(sample combina-tion)画像の提示における位置の効果(sample loca-tion)に統計的有意差があるかを確認する主効果で示される効果以外の要因で例えば観察者間の効果に統計的有意差が認められた場合には特定の観察者が嗜好度を引き上げるなどのバイアスの可能性を確認しその原因を考察する実験実施者が注目する主効果に統計的有意差が認められる場合には誤差変動を超えた差異があるものと判断するその後多重比較法により以下の式から yardstick(Y005)を求め平均嗜好度の 95信頼区間または二つの平均嗜好度間の差の 95信頼区間による統計的有意差検定を行う10 11)

005=0051048616 1048620 1048617

1048626 (2)

ここで0051048616 1048620 1048617は多重比較法のTukey 法12)で用いられるステューデント化された範囲の表から求めた試料数 t自由度 の場合の q 値を示す平均嗜好度の 95信頼区間は平均嗜好度から yardstick(Y005)を差分加算した値が 95信頼区間の下限上限となり二つの平均嗜好度間の差から yardstick(Y005)を差分加算した 95信頼区間に 00 が含まれるか(有意差なし)含まれないか(有意差あり)で統計的有意差検定を行う本研究では前述のシェッフェ‐浦法の理論に従っ

て複数の観察者により得られた一対比較法の評価データを自動的に解析して分散分析による主効果の統計的有意差検定を行った後に各試料間の平均嗜好度と yardstick を算出し統計的有意差検定の結果を出力するソフトウエアを開発した開発環境はOSが Windows10 で開発ソフトウエア Visual Studio2017(Microsoft 社)の C++を使用しROC観察者実験用に開発されたROC Viewer13)の出力ファイルを利用して入力ファイルとすることを可能としたソフトウエアはコマンドプロンプト上で動作する開発した自動解析ソフトウエアを検証するため本

実験のデータ解析を行う前に市販されている統計ソフトウエア(エクセル統計社会情報サービス2016)の無料体験版に付属の一対比較法の浦の変法用のサンプルデータを用いて市販ソフトウエアの出力結果と理論に従って表計算ソフトウエア Excel 2016(Microsoft 社)を用いて計算した結果そして本ソフトウエアによる計算結果が完全に一致することを確認したなおソフトウエアの出力は各観察者の評定

から算出した各試料の嗜好度(Fig 1a)観察者全体について算出した各試料の平均嗜好度(Fig 1b)分散分析による統計的有意差検定の結果(Fig 1c)そして試料間の統計的有意差検定の結果(Fig 1d)とした

1-2 模擬低線量 CT画像による一対比較評価法1-2-1 試料当院において肺生検前に通常線量(120 kV186

mAs)で撮影された臨床 CT 画像 5 例を使用したなおすべての症例は診療目的で撮像されたものであり本研究への使用にあたっては本院の倫理審査委員会の承認を得た観察者実験では通常線量で撮影された CT画像か

らコンピュータシミュレーションにより通常線量の8060402010の模擬低線量 CT画像を再構成しそれらの画像に含まれるノイズの見えやすさを比較対象としたFigure 2 に模擬低線量CT画像作成のシミュレーション手法を示す14)本手法では最初に標準線量で実際に撮影された

CT画像(Fig 2 ①)からforward projection(順投影)によってサイノグラムを再現する(Fig 2 ②)次にそのサイノグラムに計算によってノイズを加える(Fig 2 ③)このとき計算に用いるパラメータを変化させることで任意の低線量の画像が作成可能となるその後filtered back projection(逆投影)することでノイズ CT画像を再構成する(Fig 2 ④)最後に①の画像に④の画像を足し合わせることにより模擬低線量CT画像を作成する(Fig 2 ⑤)一対比較法の観察者実験に用いる試料は症例ごと

に肝臓部と肺野部の断面のCT像についてオリジナル像(100)と80から 10の模擬低線量 CT画像5 枚を用意し計 60 枚(5 例acute6 線量acute2 部位)としたなお一対比較法としては一人の患者の六つの線量レベルの画像から 2 枚を取り出して行う評価(6acute5=30通りの組み合わせ)を 10 通り(5 例acute2 部位)行い部位別に 5症例の平均を求めて評価したある患者の肝臓部における試料 6枚の一例をFig 3 に示す1-2-2 ROC Viewerを用いた観察者実験ROC Viewer は ROC 観察者実験用に開発されたソ

フトウエアであるが2画像を同時に表示することが可能なため一対比較法にも適用可能であるただし一対比較法の観察者実験への適用にあたっては通常は信号の存在の確信度に用いられる評定のスケールを左右の画像のどちらの方がノイズの少ない画像かという設問に対する回答に置き換える必要がある(Fig 4)なおROCViewer の評定値の出力は通常

34

日本放射線技術学会雑誌

35

Vol 75 No 1 Jan 2019

Fig 1 (a) Example of computer output of a paired comparison observer study obtained from single observerand six case samples(b) Example of computer output of paired comparison observer studies obtainedfrom five observers and six case samples (c) Example of computer output of two-way analysis ofvariance (ANOVA) for testing average psychological measures obtained from a paired comparisonobserver study (d) Example of computer output of statistically significant test results using amultiple comparison method with a yardstick value (plt005) SIG statistically significant

a

b

c

d

はスケールの左端が「信号が絶対に存在しない(00)」で右端が「信号が絶対に存在する(10)」であるが一対比較法への適用においてはスケールの中央を 00 としそこから左右に向かう値を各試料の評定とした例えば観察者が左右の画像を見比べて右の画像の方が明らかにノイズが少ないと判断してスケールの右端を選択した場合右の試料画像に対する評定値は 05 であり逆に左の試料画像に対する評定値は-05 となるまたどちらもノイズに差がないと判断してスケールの真ん中を選択した場合は左右の画像共に評定値は 00 となる観察者実験には CT画像読影の経験が 2 年以上の 6

名の診療放射線技師(経験年数2ndash21 years平均

102 years)が参加した観察者実験の実施にあたっては本院の倫理審査委員会の承認を得たうえで各観察者には事前にインフォームドコンセントを得た一対比較法における観察者実験ではCT画像表示

のウインドウ幅(WW)とウインドウレベル(WL)が変化するとそれが評価結果に影響を与えるので肝臓部肺野部の表示条件(WW WL)はそれぞれ(300 40)(1500 -600)ですべての症例について一定とした

2結 果Table 2 に 5 例の患者の下肺野および肝臓部の CT

像についてシミュレーションにより撮影線量レベル

36

日本放射線技術学会雑誌

Fig 2 Computerized procedure for reconstructing quasi-low-dose CT images

Fig 3 Examples of case samples for the paired comparison observer studyFive simulated low-dose CT images were reconstructed from thestandard-dose CT image (100)

を 100から 10まで変化させて作成した画像のノイズ特性に関する平均嗜好度および各症例におけるyardstick を示す各平均嗜好度は6名の観察者から

得られた嗜好度の平均でありカッコ内にその標準偏差を示す各症例についての分散分析ではすべての症例について平均嗜好度に統計的に有意な差があるこ

37

Vol 75 No 1 Jan 2019

Fig 4 Display of ROC Viewer for comparing two CT images in terms ofnoise appearances due to the low-dose setting

Table 2 Average psychological measures (95 confidence interval CI) and yardsticks for six patients obtained from a pairedcomparison observer study using five case samples with various exposure dose level (10 20 40 60 80 and 100)

A Lower LungDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0172 [-0252 -0092] -0077 [-0157 0003] -0005 [-0085 0075]PT2 -0157 [-0229 -0085] -0091 [-0163 -0019] 0022 [-0050 0094]PT3 -0171 [-0239 -0103] -0097 [-0165 -0029] 0007 [-0061 0075]PT4 -0216 [-0295 -0137] -0054 [-0133 0025] 0007 [-0072 0086]PT5 -0194 [-0290 -0098] -0088 [-0184 0008] -0014 [-0110 0082]Ave -0182 -0081 0003

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0045 [-0035 0125] 0093 [0013 0173] 0117 [0037 0197] 0080PT2 0031 [-0041 0103] 0086 [0014 0158] 0110 [0038 0182] 0072PT3 0062 [-0006 0130] 0104 [0036 0172] 0094 [0026 0162] 0068PT4 0037 [-0042 0116] 0102 [0023 0181] 0124 [0045 0203] 0079PT5 0068 [-0028 0164] 0088 [-0008 0184] 0140 [0044 0236] 0096Ave 0049 0095 0117

B LiverDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0261 [-0316 -0206] -0181 [-0236 0126] -0046 [-0101 0009]PT2 -0291 [-0348 -0234] -0163 [-0220 -0106] -0035 [-0092 0022]PT3 -0304 [-0359 -0249] -0174 [-0229 -0119] -0055 [-0110 0000]PT4 -0289 [-0338 -0240] -0169 [-0218 -0120] -0050 [-0099 -0001]PT5 -0285 [-0339 -0231] -0158 [-0212 -0104] -0054 [-0108 0000]Ave -0286 -0169 -0048

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0067 [0012 0122] 0178 [0123 0233] 0243 [0188 0298] 0055PT2 0053 [-0004 0110] 0185 [0128 0242] 0251 [0194 0308] 0057PT3 0076 [0021 0131] 0193 [0138 0248] 0264 [0209 0319] 0055PT4 0079 [0030 0128] 0160 [0111 0209] 0268 [0219 0317] 0049PT5 0072 [0018 0126] 0157 [0103 0211] 0268 [0214 0322] 0054Ave 0069 0175 0259

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 4: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

35

Vol 75 No 1 Jan 2019

Fig 1 (a) Example of computer output of a paired comparison observer study obtained from single observerand six case samples(b) Example of computer output of paired comparison observer studies obtainedfrom five observers and six case samples (c) Example of computer output of two-way analysis ofvariance (ANOVA) for testing average psychological measures obtained from a paired comparisonobserver study (d) Example of computer output of statistically significant test results using amultiple comparison method with a yardstick value (plt005) SIG statistically significant

a

b

c

d

はスケールの左端が「信号が絶対に存在しない(00)」で右端が「信号が絶対に存在する(10)」であるが一対比較法への適用においてはスケールの中央を 00 としそこから左右に向かう値を各試料の評定とした例えば観察者が左右の画像を見比べて右の画像の方が明らかにノイズが少ないと判断してスケールの右端を選択した場合右の試料画像に対する評定値は 05 であり逆に左の試料画像に対する評定値は-05 となるまたどちらもノイズに差がないと判断してスケールの真ん中を選択した場合は左右の画像共に評定値は 00 となる観察者実験には CT画像読影の経験が 2 年以上の 6

名の診療放射線技師(経験年数2ndash21 years平均

102 years)が参加した観察者実験の実施にあたっては本院の倫理審査委員会の承認を得たうえで各観察者には事前にインフォームドコンセントを得た一対比較法における観察者実験ではCT画像表示

のウインドウ幅(WW)とウインドウレベル(WL)が変化するとそれが評価結果に影響を与えるので肝臓部肺野部の表示条件(WW WL)はそれぞれ(300 40)(1500 -600)ですべての症例について一定とした

2結 果Table 2 に 5 例の患者の下肺野および肝臓部の CT

像についてシミュレーションにより撮影線量レベル

36

日本放射線技術学会雑誌

Fig 2 Computerized procedure for reconstructing quasi-low-dose CT images

Fig 3 Examples of case samples for the paired comparison observer studyFive simulated low-dose CT images were reconstructed from thestandard-dose CT image (100)

を 100から 10まで変化させて作成した画像のノイズ特性に関する平均嗜好度および各症例におけるyardstick を示す各平均嗜好度は6名の観察者から

得られた嗜好度の平均でありカッコ内にその標準偏差を示す各症例についての分散分析ではすべての症例について平均嗜好度に統計的に有意な差があるこ

37

Vol 75 No 1 Jan 2019

Fig 4 Display of ROC Viewer for comparing two CT images in terms ofnoise appearances due to the low-dose setting

Table 2 Average psychological measures (95 confidence interval CI) and yardsticks for six patients obtained from a pairedcomparison observer study using five case samples with various exposure dose level (10 20 40 60 80 and 100)

A Lower LungDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0172 [-0252 -0092] -0077 [-0157 0003] -0005 [-0085 0075]PT2 -0157 [-0229 -0085] -0091 [-0163 -0019] 0022 [-0050 0094]PT3 -0171 [-0239 -0103] -0097 [-0165 -0029] 0007 [-0061 0075]PT4 -0216 [-0295 -0137] -0054 [-0133 0025] 0007 [-0072 0086]PT5 -0194 [-0290 -0098] -0088 [-0184 0008] -0014 [-0110 0082]Ave -0182 -0081 0003

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0045 [-0035 0125] 0093 [0013 0173] 0117 [0037 0197] 0080PT2 0031 [-0041 0103] 0086 [0014 0158] 0110 [0038 0182] 0072PT3 0062 [-0006 0130] 0104 [0036 0172] 0094 [0026 0162] 0068PT4 0037 [-0042 0116] 0102 [0023 0181] 0124 [0045 0203] 0079PT5 0068 [-0028 0164] 0088 [-0008 0184] 0140 [0044 0236] 0096Ave 0049 0095 0117

B LiverDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0261 [-0316 -0206] -0181 [-0236 0126] -0046 [-0101 0009]PT2 -0291 [-0348 -0234] -0163 [-0220 -0106] -0035 [-0092 0022]PT3 -0304 [-0359 -0249] -0174 [-0229 -0119] -0055 [-0110 0000]PT4 -0289 [-0338 -0240] -0169 [-0218 -0120] -0050 [-0099 -0001]PT5 -0285 [-0339 -0231] -0158 [-0212 -0104] -0054 [-0108 0000]Ave -0286 -0169 -0048

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0067 [0012 0122] 0178 [0123 0233] 0243 [0188 0298] 0055PT2 0053 [-0004 0110] 0185 [0128 0242] 0251 [0194 0308] 0057PT3 0076 [0021 0131] 0193 [0138 0248] 0264 [0209 0319] 0055PT4 0079 [0030 0128] 0160 [0111 0209] 0268 [0219 0317] 0049PT5 0072 [0018 0126] 0157 [0103 0211] 0268 [0214 0322] 0054Ave 0069 0175 0259

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 5: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

はスケールの左端が「信号が絶対に存在しない(00)」で右端が「信号が絶対に存在する(10)」であるが一対比較法への適用においてはスケールの中央を 00 としそこから左右に向かう値を各試料の評定とした例えば観察者が左右の画像を見比べて右の画像の方が明らかにノイズが少ないと判断してスケールの右端を選択した場合右の試料画像に対する評定値は 05 であり逆に左の試料画像に対する評定値は-05 となるまたどちらもノイズに差がないと判断してスケールの真ん中を選択した場合は左右の画像共に評定値は 00 となる観察者実験には CT画像読影の経験が 2 年以上の 6

名の診療放射線技師(経験年数2ndash21 years平均

102 years)が参加した観察者実験の実施にあたっては本院の倫理審査委員会の承認を得たうえで各観察者には事前にインフォームドコンセントを得た一対比較法における観察者実験ではCT画像表示

のウインドウ幅(WW)とウインドウレベル(WL)が変化するとそれが評価結果に影響を与えるので肝臓部肺野部の表示条件(WW WL)はそれぞれ(300 40)(1500 -600)ですべての症例について一定とした

2結 果Table 2 に 5 例の患者の下肺野および肝臓部の CT

像についてシミュレーションにより撮影線量レベル

36

日本放射線技術学会雑誌

Fig 2 Computerized procedure for reconstructing quasi-low-dose CT images

Fig 3 Examples of case samples for the paired comparison observer studyFive simulated low-dose CT images were reconstructed from thestandard-dose CT image (100)

を 100から 10まで変化させて作成した画像のノイズ特性に関する平均嗜好度および各症例におけるyardstick を示す各平均嗜好度は6名の観察者から

得られた嗜好度の平均でありカッコ内にその標準偏差を示す各症例についての分散分析ではすべての症例について平均嗜好度に統計的に有意な差があるこ

37

Vol 75 No 1 Jan 2019

Fig 4 Display of ROC Viewer for comparing two CT images in terms ofnoise appearances due to the low-dose setting

Table 2 Average psychological measures (95 confidence interval CI) and yardsticks for six patients obtained from a pairedcomparison observer study using five case samples with various exposure dose level (10 20 40 60 80 and 100)

A Lower LungDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0172 [-0252 -0092] -0077 [-0157 0003] -0005 [-0085 0075]PT2 -0157 [-0229 -0085] -0091 [-0163 -0019] 0022 [-0050 0094]PT3 -0171 [-0239 -0103] -0097 [-0165 -0029] 0007 [-0061 0075]PT4 -0216 [-0295 -0137] -0054 [-0133 0025] 0007 [-0072 0086]PT5 -0194 [-0290 -0098] -0088 [-0184 0008] -0014 [-0110 0082]Ave -0182 -0081 0003

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0045 [-0035 0125] 0093 [0013 0173] 0117 [0037 0197] 0080PT2 0031 [-0041 0103] 0086 [0014 0158] 0110 [0038 0182] 0072PT3 0062 [-0006 0130] 0104 [0036 0172] 0094 [0026 0162] 0068PT4 0037 [-0042 0116] 0102 [0023 0181] 0124 [0045 0203] 0079PT5 0068 [-0028 0164] 0088 [-0008 0184] 0140 [0044 0236] 0096Ave 0049 0095 0117

B LiverDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0261 [-0316 -0206] -0181 [-0236 0126] -0046 [-0101 0009]PT2 -0291 [-0348 -0234] -0163 [-0220 -0106] -0035 [-0092 0022]PT3 -0304 [-0359 -0249] -0174 [-0229 -0119] -0055 [-0110 0000]PT4 -0289 [-0338 -0240] -0169 [-0218 -0120] -0050 [-0099 -0001]PT5 -0285 [-0339 -0231] -0158 [-0212 -0104] -0054 [-0108 0000]Ave -0286 -0169 -0048

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0067 [0012 0122] 0178 [0123 0233] 0243 [0188 0298] 0055PT2 0053 [-0004 0110] 0185 [0128 0242] 0251 [0194 0308] 0057PT3 0076 [0021 0131] 0193 [0138 0248] 0264 [0209 0319] 0055PT4 0079 [0030 0128] 0160 [0111 0209] 0268 [0219 0317] 0049PT5 0072 [0018 0126] 0157 [0103 0211] 0268 [0214 0322] 0054Ave 0069 0175 0259

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 6: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

を 100から 10まで変化させて作成した画像のノイズ特性に関する平均嗜好度および各症例におけるyardstick を示す各平均嗜好度は6名の観察者から

得られた嗜好度の平均でありカッコ内にその標準偏差を示す各症例についての分散分析ではすべての症例について平均嗜好度に統計的に有意な差があるこ

37

Vol 75 No 1 Jan 2019

Fig 4 Display of ROC Viewer for comparing two CT images in terms ofnoise appearances due to the low-dose setting

Table 2 Average psychological measures (95 confidence interval CI) and yardsticks for six patients obtained from a pairedcomparison observer study using five case samples with various exposure dose level (10 20 40 60 80 and 100)

A Lower LungDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0172 [-0252 -0092] -0077 [-0157 0003] -0005 [-0085 0075]PT2 -0157 [-0229 -0085] -0091 [-0163 -0019] 0022 [-0050 0094]PT3 -0171 [-0239 -0103] -0097 [-0165 -0029] 0007 [-0061 0075]PT4 -0216 [-0295 -0137] -0054 [-0133 0025] 0007 [-0072 0086]PT5 -0194 [-0290 -0098] -0088 [-0184 0008] -0014 [-0110 0082]Ave -0182 -0081 0003

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0045 [-0035 0125] 0093 [0013 0173] 0117 [0037 0197] 0080PT2 0031 [-0041 0103] 0086 [0014 0158] 0110 [0038 0182] 0072PT3 0062 [-0006 0130] 0104 [0036 0172] 0094 [0026 0162] 0068PT4 0037 [-0042 0116] 0102 [0023 0181] 0124 [0045 0203] 0079PT5 0068 [-0028 0164] 0088 [-0008 0184] 0140 [0044 0236] 0096Ave 0049 0095 0117

B LiverDose level 10[95 CI] 20[95 CI] 40[95 CI]

PT1 -0261 [-0316 -0206] -0181 [-0236 0126] -0046 [-0101 0009]PT2 -0291 [-0348 -0234] -0163 [-0220 -0106] -0035 [-0092 0022]PT3 -0304 [-0359 -0249] -0174 [-0229 -0119] -0055 [-0110 0000]PT4 -0289 [-0338 -0240] -0169 [-0218 -0120] -0050 [-0099 -0001]PT5 -0285 [-0339 -0231] -0158 [-0212 -0104] -0054 [-0108 0000]Ave -0286 -0169 -0048

Dose level 60[95 CI] 80[95 CI] 100[95 CI] YardstickPT1 0067 [0012 0122] 0178 [0123 0233] 0243 [0188 0298] 0055PT2 0053 [-0004 0110] 0185 [0128 0242] 0251 [0194 0308] 0057PT3 0076 [0021 0131] 0193 [0138 0248] 0264 [0209 0319] 0055PT4 0079 [0030 0128] 0160 [0111 0209] 0268 [0219 0317] 0049PT5 0072 [0018 0126] 0157 [0103 0211] 0268 [0214 0322] 0054Ave 0069 0175 0259

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 7: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

とが示されその結果症例ごとに yardstick が算出された本手法によって算出された平均嗜好度はほとんど

の症例について線量レベルが高くなれば平均嗜好度も高くなりその相関係数は下肺野部の場合で095肝臓部の場合で 099 と非常に高い相関を示したが唯一患者 3の下肺野部の 80と 100の線量レベルの間で平均嗜好度の変化が逆転した(下線部80gt100)算出した yardstick を用いて多重比較法による試

料間の平均嗜好度の統計的有意差検定を行った結果(試料間の平均嗜好度間の差が yardstick よりも大きい場合にその試料間について統計的有意差あり(plt005))肝臓部ではすべての症例についてすべての試料間で統計的有意差が認められたが下肺野部では一部の試料間の組み合わせについてのみ統計的有意差が認められたTable 3 は線量レベルを変化させた試料間で統計的有意差が認められた症例数を示し10と 40608010020と 6080100そして40と 100の試料間においてすべての症例で統計的有意差が認められたがその一方で40と 6060と 80そして80と100の試料間ではどの症例においても統計的有意差は認められなかった

3考 察本研究で用いたシェッフェ-浦法による放射線画像

の比較評価の手法の有用性については既にいくつかの文献で検証されており3 4 8)学会発表や研究会等でその成果が発表されることも少なくないしかし本研究で示した統計的手法を適用することは非常に煩雑であり手計算で求めた結果に信頼性があるかどうかを検証することは困難であるまた観察者実験の実施において観察者にペアの画像を提示しそれぞれのペアについての評定を記録する作業は時間的にも非常に煩雑でありそのことが線量最適化等の検証に優れた手法であるにもかかわらず一対比較法が幅

広く用いられていない理由の一つでもあると考える本研究の主たる目的はこれらの一対比較法の実施に関係するさまざまな煩雑さを解消し更に実験中に生じる計算ミスや誤記などの人為的なデータ管理に基づくエラーを減少させるという意味において実験結果の精度を向上させることにあるそのために容易に比較評価の結果を検証することが可能なようにシミュレーションにより撮影条件レベルを変化させて再構成したCT画像を試料として一対比較法による観察者実験を実施しその結果から本手法の整合性を検証した5 例の下肺野および肝臓部の CT画像による比較評

価の結果通常臨床で使用されている撮影条件から線量レベルを下げて再構成したCT画像では線量レベルの設定が適切と考えられる肝臓部では線量のレベルが下がることですべての試料間で統計的に有意にノイズ特性が劣化することが認められたまた線量レベルの 100と 10の間には平均嗜好度で-0286と 0259 の幅(0545)があったしかし線量レベルの設定が肝臓部に比べると過剰気味な下肺野部では線量レベルを 20下げても統計的に有意な差は認められないことが実証されまた線量レベルの100と 10の間の平均嗜好度の差は0299(-01820117)と肝臓部と比べて小さくなった一般に観察者実験では観察者間の変動を考慮す

る必要があるが1)シェッフェ-浦法においても観察者間の変動は考慮されるため観察者数が少ないまたは観察者間の変動が大きい場合に yardstick が大きくなり平均嗜好度間の差の統計的な証明が困難になる本研究では 6名の観察者により観察者実験を行ったが下肺野部の試料を用いた場合に観察者間の変動が大きくなりyardstick も大きな値となった本手法によって観察者実験後のデータ解析を行う

際の作業が簡略化されると期待される本研究では具体的にデータ解析の所要時間を従来法と比較することはしなかったが本研究で開発したソフトウエアを用いることで複数の観察者の観察者実験終了後に評定

38

日本放射線技術学会雑誌

Table 3 Statistically significant test results of differences between two averagepsychological measures among five sample cases

20 40 60 80 10010 45(80) 55(100) 55(100) 55(100) 55(100)20 25(40) 55(100) 55(100) 55(100)40 05(0) 45(80) 55(100)60 05(0) 25(40)80 05(0)

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二

Page 8: × r s ¹ Ñ Ä ¢ ¤ ; M h ³ £ ¿ Ñ £ w Ê Ä ° 0 z ± O t h þ ° A q è ¢ Û ... · 2019-01-28 · ' 3 0 $ r s w o t | ´ ! w u z q m l h ... h revhuyhu vwxg\ gdwd rewdlqhg

データ解析を行うための時間は10 分未満に短縮されることが確認された本研究で使用したシェッフェ-浦法の解析を行うソ

フトウエアは試行的に 2017 年から本学会の画像部会および教育委員会が開催している ROC セミナーの参加者に観察者実験で使用しているROCViewer のソフトウエアとともに配布しておりその際に指摘されたいくつかの問題点を改善して現在に至っているROCFROC観察者実験の場合と同様に本手法による観察者実験の実施とソフトウエアの利用方法については最初に十分なトレーニングを受ける必要があると考えるため今後もこのセミナー参加者に対してのみ配布を継続する予定である

4結 語シェッフェの一対比較法の浦の変法による観察者実

験の簡略化と実験精度の向上を目的としてROC観察者実験用に開発されたソフトウエアとそこから得られた観察者実験データから自動的に一対比較法の統計解析を行うソフトウエアを開発した模擬的に作成した低線量CT画像の比較評価に本手法を適用し線量レベルの変化に対応した視覚評価によるノイズ特性の変化を統計的に証明することで本手法の整合性を検証した

本研究の一部は第 3 回 International Congress ofRadiological Science and Technology (平成 29 年 10月広島市で開催)で発表した

なおこの研究の一部は科学研究費 基盤 C(15K09898)の補助を受けている

39

Vol 75 No 1 Jan 2019

1) Shiraishi J Pesce LL Metz CE et al Experimental design anddata analysis in receiver operating characteristic studies lessonslearned from reports in radiology from 1997 to 2006 Radiology2009 253(3) 822-830

2) Wagner RF Metz CE Campbell G Assessment of medicalimaging systems and computer aids a tutorial review AcadRadiol 2007 14(6) 723-748

3) 安藤英次音羽栄一大賀泰文他最適写真濃度の新しい評価法日放技学誌 1987 43(1) 1-8

4) 大賀泰文本武士田畑洋二他X線写真の主観的評価法―Thurstoneの一対比較法による尺度化の試み―日放技学誌 1989 45(7) 831-839

5) 中前光弘田畑洋二大賀泰文他Scheffeacuteの一対比較法による主観的評価法日放技学誌 1996 52(11) 1561-1565

6) 中前光弘統計的官能検査法の理論と放射線技術科学への応用 ―Scheffeacute(シェッフェ)の一対比較法を中心に―日放技学誌 2010 66(11) 1502-1507

7) H Scheffeacute An analysis of variance for paired comparisons J

Am Stat Assoc 1952 47(259) 381-4008) 浦 昭二1 対比較実験の解析品質管理 1959 16 78-

809) 中屋澄子Scheffeacuteの一対比較法の一変法第 11回日本科学技術連盟官能検査大会報文集 1970 1-12

10) 高木英行使える統計検定機械学習―III ―主観評価実験のための有意差検定システム制御情報 201458(12) 514-520

11) 永田 靖吉田道弘統計的多重比較法の基礎東京サイエンティスト社1997

12) Tukey JW Comparing individual means in the analysis ofvariance Biometrics 1949 5(2) 99-114

13) Shiraishi J Fukuoka D Hara T et al Basic concepts anddevelopment of an all-purpose computer interface for ROCFROC observer study Radiol Phys Technol 2013 6(1) 35-41

14) Takenaga T Katsuragawa S Goto M et al A computersimulation method for low-dose CT images by use of real high-dose images a phantom study Radiol Phys Technol 2016 9(1)44-52

参考文献

問合先862-0976 熊本市中央区九品寺 4丁目 24-1熊本大学大学院生命科学研究部 白石順二