こんにちは、SWETグループの田熊です。
現在SWETグループでは書籍「単体テストの使い方/考え方」の輪読会を実施しています。
輪読会ではメンバー同士で活発に意見が交わされていますが、著者の主張に疑問を感じる箇所もあり、一度グループ外の方とも意見を交換したいと考えていました。
そこで、t_wadaさんをお招きし「単体テストの使い方/考え方」についてディスカッションする機会を設けました。
本記事では、SWETメンバーとt_wadaさんとのやりとりを紹介したいと思います。
ディスカッションの流れ
ディスカッションは事前にSWETグループのメンバーが書籍を読んで疑問に感じたテーマを挙げてもらい、t_wadaさんの意見を聞くという流れで行いました。
今回は次のテーマについて話をしました。
※ SWETグループ内での輪読会が第7章までしか進んでいないため、7章以前の内容が中心になっています。
SWETメンバー質問:
どのようなテストに「退行に対する保護」があると考えているか?
t_wadaさん回答要約:
- バグを入れたときにみつけてくれるテスト
- プロダクションコードの変更に対してテストコードの変更が0に近いと退行に対する保護がある。テストコードの修正が必要だと、そこに対してミスが入る可能性がある
- プロダクションコードにあわせてテストコードの修正の頻度が高くなるのは、実装に対してテストコードの距離が近いから。たとえば、実装の中身が漏れ出しているようなテストや、期待値の計算方法が実装と同じになっているテスト
- 実装とテストが別のやり方でクロスチェックをしている構造になっていると、退行に対する保護の度合いが高くなる。期待値をベタ書きにすることや、テスト対象へのアクセスのやり方を変えるのは、同じ誤りをプロダクションコードとテストに入れないための備え
SWETメンバー質問:
アサーションは緩くもできる。たとえば、例外が発生しないことだけを確認したり、オブジェクトの一部のフィールドのみアサーションの対象にしたりできる。
アサーションの性質からも、バグをよく発見してくれるテストを説明できるのではないか?どのようなアサーションであれば偽陰性を減らせるか?
t_wadaさん回答要約:
- 大きいオブジェクトに対してピンポイントでアサーションをすると、偽陽性のリスクは減るが偽陰性のリスクが高まるトレードオフの関係になっている
- 完全一致で検査する大きいテストとピンポイントで検査するテストを使い分ける
- ユニットテストはピンポイントのテスト寄り。大きいテストとして、フロントエンド領域でのビジュアルリグレッションテストや、バックエンド領域でのレスポンス全体を見るテスト等
- テストスイートの信頼性はテスト全体で測るもので、あるレイヤーのテストの弱点を別のレイヤーのテストで補えればよい
SWETメンバーコメント:
ビジュアルリグレッションテストは画面が同一かを見たいのではなく、本当に担保したいのは使いやすさが壊れていないか。ちょっとしたズレはしきい値で調整して許容できる。
もともと使いやすさを考慮してデザインされた上で画面が作られているため、大きく変わっていなければ使いやすさも壊れていないと考える。
SWETメンバー質問:
「リファクタリングへの耐性」を下げる原因になる偽陽性について。
偽陽性が出るテストは技術で解決できることが多い。偽陽性で一番多いのはシグネチャ変更によるコンパイルエラー。この本で出てくる偽陽性が原因ですごく出て困った話は出てこなくて、出てもすぐに解決可能だった。
偽陽性をテスト技術でカバーできるのであれば、他の要素とのトレードオフ関係とはいえないのではないか?
t_wadaさん回答要約:
- 本書では偽陽性の原因としてシグネチャ変更、テストダブルの多用について書かれているが、Flaky Testの記述が少ない
- 偽陽性は次の2種類がある
- Fragile Test。コードの変更に対してテストをたくさん直さないといけない問題。これはテストの書き方やテストで使う道具の問題
- Flaky Test。テストの安定性の問題
- 偽陽性の本当の戦いはFlaky Test。著者はE2EテストがFlaky Testのメインファクターだと思っていない
- この本はおおむねよいことを書いていて読んでもらいたいが、この点については鵜呑みにしてはいけない
SWETメンバー質問:
最近はTesting Trophyのような、単体テストを厚くするよりも統合テストに比重を置く考えも出てきている。ここについてどう考えているか?
t_wadaさん回答要約:
- テスト範囲(スコープ)は人によってブレるので、テストサイズというテスト実行時の動的な側面で分類するのがよいと考えている
- テストスコープで分類するとトロフィーになるものが、テストサイズで分類するとピラミッドになる
- スコープとサイズを3 x 3で分類してコスパのよい領域を整理した。サイズを上げずにスコープを広げられるのが理想
SWETメンバー質問:
テスタビリティを高めるためにデータベースなどの外部アクセスをDIできるようにしているが、これが本当に正しいのか悩んでいる。DIはテスタビリティにのためにプロダクションコードの本来あるべきソフトウェアの設計を変えてしまっているのではないか。
現在はDockerやAWSのFake(LocalStackやMoto)のような道具があって、テスト実行時に環境変数を変更するだけでテスト用インスタンスに繋げられる。DIのための特別なコンストラクタがなくても、テストは書けるし安定させられるのではないか。
t_wadaさん回答要約:
- DIできるようにするのがよいと思っている
- Dockerは安定しているが(オンメモリのテストよりは)速くはない。Dockerを使うとテストサイズがsmallからmediumにあがってしまう。テストの数が増えると実行時間が掛け算になって増えていく。自動テストは信頼できる成功または失敗までに最短時間で到達するゲーム
- 一番終端のプロセス外にアクセスしているところをテストダブルにする戦略がとれるとよい。たとえば(いわゆる三層アーキテクチャの)データアクセスの入り口にRepositoryを置く構成になっている場合に、Repositoryのコンストラクタでテストダブルを注入する。あるいはRepositoryを偽物にする
- Repositoryのテストはデータベースにアクセスしないとできないものもあるので、medium x 単体になる。ドメインレイヤのテストはsmall x 単体が一番よい。それ以外のControllerやServiceはsmall x 統合。そうするとテストの大部分をsmallにでき、テストのパイプラインのスループットが向上する
SWETメンバー質問:
これまでの話はテストから見たときの観点だが、「テストしやすいように設計」することで設計が悪くなっている場合があるのかもしれない。
良い設計とテスタビリティの高い設計が相容れないことはあるのか?
t_wadaさん回答要約:
- 「テスタビリティの高い設計がよい設計」を受け入れるか
- テストファーストをするとテスタビリティは強制的にあがるが、それによって発生した設計がよい設計か?という意見も出てきている
- 視野がせますぎないか、界面が多すぎないかといった指摘。引数が多すぎる、インターフェイスが広すぎるという設計を導くことも多い
- バランスをとる必要がある。外部から注入するのは悪いと思わないが、テスタビリティのためにprivateメソッドをpublicにしますというと怪しい
- よい設計の観点には結合度と凝集度や、認知負荷がある
- テスタビリティが高いと結合度も低いというのはある程度正しいが、凝集度に対してテストコードが関与するというのはあまりない。認知負荷も人次第になってしまいがち
- テストコードを書くことでテスト対象とやりとりする回数が多くなるので、よりよい設計に気づくきっかけは増えるが、腕次第なところもある
SWETメンバー質問:
モジュール境界であっても観察可能な振る舞いでなければテストすべきでないという著者の主張について。モジュール境界で担当者が変わる場合に、テストが落ちたときの責任が誰かはっきりさせるためテストダブルを積極的に使っていた現場もあった。アジャイル開発のような全部のモジュールをみんなで作ろうという文化では、境界を意識しなくてもいい。
テストダブルの使い方にチームの文化が関連しているように思ったがどうか?
t_wadaさん回答要約:
- 責任境界におけるテストダブルの利用は、問題の発見を遅らせる。自組織であれば発見を早めるべき。全員で責任を持ち全員で直していく
- 問題の発見を遅らせてしまう理由は、テストダブルを使うことで偽陰性を持ち込む可能性があるため。本物の動きとテストダブルの動きが異なる可能性がある
- 社外とのやりとりに関しては契約・Schemaの考えでテストダブルを使う、あるいはアンチコラプションレイヤーを用意するというのはある
- 組織内の責任分界点においてテストダブルを使うというのもあると思うが、アジャイル開発のような開発文化にはそぐわないかもしれない
SWETメンバー質問:
テスタビリティを高めるために関数型アーキテクチャを採用し、純粋関数的な部分と状態をもつものを分離するという著者の主張について。それ自体に異論はないが、結合バグに対して著者は触れていない。結合バグをどう対処するかという話を入れてほしかった。
自分自身はプロセス同士を合成していくとテストケース数が爆発するので手で書くのは無理だと思っている。形式手法等を使って、プロセス同士の合成を検証するような技術に行き着くと思っている。結合バグへの対応について意見を聞きたい。
t_wadaさん回答要約:
- そう思う
- 統合テストをカジュアルに書けるようにしよう、単体と統合の違いよりテストサイズの違いを気にしよう、と最近言っている。単一プロセス内の組み合わせはどうにかできるところまで来ている
- 分散コンポーネントの領域でモデル検査や形式手法が成果を出しているのは良いニュース。まだカジュアルに使えるようになっていないのをどうするか
- 組合せ爆発や副作用をどう扱うかは設計者に必要とされるスキルだが、あまり啓蒙は進んでいない。試みとして純粋関数型から考えを輸入している
- 無矛盾性や自分たちが把握しているバグのなさににこだわることはできないので、Observabilityを高めることでカバーしていこうというのが2023年のトレンド
SWETメンバー質問:
著者は単体テストを行う価値がもっとも高いプロダクション・コードは複雑なコード、もしくは、ドメインにおける重要性が高いコードと言っている。さらにユーティリティはドメインでないと言っている。ドメインにおける重要性の高いコードの一部をユーティリティに切り出すと、切り出されたコードは単体テストを行う価値が低くなってしまう。また、ユーティリティは広く薄く使われるので、壊れたときの影響も大きい。
単体テストを行う価値のあるコードの定義についてどう思うか?
t_wadaさん回答要約:
- 同意
- ユーティリティはドメインではないという点はよいが、だからテストを書く価値が低いというのはおかしい
- 著者は依存度に対して被依存度をあまり重視していない。依存度が低くて被依存度が高いコードへのテストはコスパがよいので、テストすればよいと思う
- 著者的には被依存度の高い箇所が壊れたら、どこかのテストが壊れるだろうという考えなのかもしれない
- ユーティリティに対して網羅されたテストがあって、使う人みんなが安心という構造のほうが健全
SWETメンバー質問:
コントローラのような協力者オブジェクトが多いコードについて、単体テストは行わず統合テストで行うという著者の主張について。自分自身の感覚だと、協力者オブジェクトのハンドリングに関するロジックはモックライブラリを使ってテストする。一方で、そのようなテストが壊れやすいというのも理解はできる。
そのあたりのバランス感覚について意見を聞きたい。
t_wadaさん回答要約:
- テストのスタイルに関する部分
- 自身のスタイルは古典派寄り。あまりインタラクションベースのテストも書かないし、テストダブルもあまり使わない。著者とスタイルは近い。昔はロンドン学派だった
- サイズが上がらざるを得ない箇所はテストダブルを使ってsmallでおさまるようにしている。呼び分けは呼び分けた結果の戻り値やステートを見る。smallサイズの統合テストとして書くようにしている
- 自動テストをテストサイズで整理したことにより、テストダブルの使いどころを説明しやすくなった
- 「なるべく早く信頼できる結果にたどりつく」という目標を定めて、どうやって信頼性の高いテストを積み上げていけるかで整理した
- なんとなくテスタビリティを上げたり網羅率を上げるために使ってきたが、サイズを下げるところが使い所だという認識を得た
SWETメンバー質問:
ロンドン学派から今のスタイルになったきっかけは?
t_wadaさん回答要約:
- 2004〜2006頃はロンドンスタイルだった
- 当時はモックライブラリがいまほど優秀じゃなかった。シグネチャを変更するたびに手でメンテナンスがいる状態だった。リファクタリングへの耐性が低く、仕様変更のたびにコストがかかっていた
SWETメンバー質問:
最近は強力なモックライブラリも登場し、不必要に使われているケースも見かける。実際にモックライブラリを使いすぎてテストが壊れた経験をしていないと、この本で偽陽性について強く言っていることが理解できないかもしれない。
実際にモックライブラリの多用でテストがメンテナンスできなくなったりした事例は知っているか?
t_wadaさん回答要約:
- 現場によりけり
- 強力なモックライブラリの副作用はでかい。現在の設計に対してそのままテストを書く道具として使われがち。結合度高くても介入しちゃえばいいよといって使われてしまう
- たとえば、網羅率をあげるためにテスト対象のPartial mockみたいなことを始めてしまう。privateメソッドはprvateメソッドをこじあけてテストするし、publicメソッドはprivateメソッドをスタブアウトしてテストしている現場がある
- そういったテストは、コードをリファクタリングしようとしたときにテストが頼りにならなくなってしまう。リファクタリング耐性がないテストコード
- たとえば、メソッドの切り出し方が悪いので一度インライン化して別のやり方で切り出そうとしても、既存のテストが役に立たない
- 腕次第やテスト方針立ててないからといえばそうなんだが、強力な道具を与えるとそういう使い方になってしまうというのを目撃している
- 他にも「モックが作りにくいのは設計がよくない兆し」と言いたいのに、強力なライブラリでゴリ押しできてしまう
SWETメンバー質問:
テスト対象の仕様と振る舞いが何なのかという点からテストダブルを使うか使わないかの判断するようにしている。オブジェクト間のコミュニケーションを通信として捉えたときに、モジュールの中で通信が発生することを振る舞いと捉える。その振る舞いをチェックするためにテストダブルを使う。通信も振る舞いの一環として捉えるモデルの考え方があって、モデルとコードの距離が近くなるため。
このような考えはどうか?
t_wadaさん回答要約:
- 本で出てくるどこが観測可能な振る舞いなのか?という話につながる
- 間接出力の向かう先が外部なのか内部なのか。外部であればテストダブルを使うことに妥当性があることもあると思うし、内部だと個人的にはやりすぎだとも思う
SWETメンバー質問:
テストはバグがないとこを保証できないとはいうものの、感覚としてはテストを書いているとかなり保証できているんじゃないかなと感じる。実際にはテストの漏れがあったりして、その感覚があっているわけでもない。
単体テストを書いていて保証されている度合いをどう感じているか?十分高いと感じるなら、なぜそう感じるのか?あるいは十分高いとはいえなくてテストという手法について限界を感じるのであれば、どうやって補っていけばいいと考えているか?
t_wadaさん回答要約:
- 単体テストは「使ったときこうすればいいと思っていました」が「いまも認識どおりか?」というのを高速に低コストで確認するぐらいしかできていない。わかっているものにはテストが書けるが、わかっていないことすらわかっていないものにはテストは無力
- テストを書いていくことによってテスト対象にふれる機会が増えるので、気づきやすくなるメリットはあるが、ひらめきや注意深さは個人の性質による
- Unknown unknowns領域(知らないし理解していない領域)を収集していかないと、動作に対する確信には繋がらない。わかったことはKnown knowns領域(知っているし理解している領域)として自動テストにしていく
- スキルフルな人がやる探索的テストもあれば、無作為に色々やるというのもある。インフラの領域ではカオスエンジニリアリングなどのアプローチもある
- わからないのだからunknownsに対してすぐに反応できるようObservabilityを高めるという考えもある
SWETメンバー質問:
ひらめき、注意深さは伸びていくもの?
t_wadaさん回答要約:
- 訓練の結果伸びる人も多数いるが、Top of Topには才能や向き不向きがあるように感じる
- 探索テストの才能が抜きん出て高い人は実在するが、教育や訓練などによって育成できるかどうかはよくわかっていない。才能だけだとスケールしないのでどうにかしないといけない
- 過去に抜きん出てすごい人がいたが、昔のコンシューマーゲームのように、リリースしたあとで挽回するチャンスはないような環境で鍛えられてきた
SWETメンバー質問:
著者の主張と和田さんの考えで異なる部分があれば聞きたい
t_wadaさん回答要約:
- 「ものすごく良い本なのでみんな読んでほしいけど、鵜呑みにはして欲しくない」みたいな読後感。細かいところで違うと感じる点は多々ある
- たとえば著者が主張するテストメソッド名について、最近生成AIがテストコーディングに強く関与し始めている。テストメソッド名をどう書くとAIに理解されやすいかも重要になってくる
- テストダブルの使い方は筆者のスタイルと似ていて齟齬がない
SWETメンバー質問:
テスト界隈で出てくる「振る舞い」という言葉が表わすものはなにか?
自分の理解だとあるユーザーストーリーを振る舞いと言っている人が多いように見える。ただはっきりと主張している人を見たことがあるわけではない
t_wadaさん回答要約:
- この本ではテスト対象のシグネチャではなく、対象の実行前後の差異とそれによって目的が達成されたか、という認識なのではないか
- Behaviorという言葉は歴史的に混乱もあったのであまり使いたい言葉ではない
- テスト界隈では2000〜2004あたりに「振る舞い」が出てきた
- テスト駆動開発の過去・現在・未来
- TDDのTが、これまでのテストのイメージに引きずられて言いたいことが伝わらない。出てきた言葉がBehavior (BDD)
- それ以降Behaviorが使われるようになったが、はっきりした定義はないまま
- コードの見た目をしているから伝わらないという意見も出てきて、Gherkin記法が登場した。Gherkinで書くことをBDDという人もいる
SWETメンバー質問:
本書には技術者以外が読めるようにテストメソッド名をつけるという記述があったが、単体テストをエンジニア以外が読むとは考えにくい。
どう書いたらエンジニア以外とのコミュニケーションがうまくいくだろうか?
t_wadaさん回答要約:
- 「全員同席」と「顧客がテストを書く」という夢を見て作られたのがGherkin。テストを形式化された自然言語で書けば、顧客がテストを書いてくれるしQAエンジニアがテストを読めるという考え
- ワンチームでやっているチームでは回っている。そうでないチームでは、顧客もテストエンジニアもテストコードを読まないのにプログラマにとっては間接層を増やしている感覚
- 距離が近いチームではモブプロ・ペアプロでやるとよい。非エンジニアもエンジニアと一緒だったら読み書きできる
- そうではないチームではドキュメントにするしかないが、どういったドキュメントだったら伝わるか、メンテできるか。どのようなドキュメントを作ればよいかは、各社模索中
SWETメンバー質問:
4章のはじめで導入されたよい単体テストを構成する4本の柱のうちの2つ「退行に対する保護」と「リファクタリングへの耐性」という表現は、著者固有の定義か。それともテスト界隈で広く使われている表現か?
t_wadaさん回答要約:
- 「退行に対する保護」は、表現は違えど通常これを目的に自動テストをするので以前からあった言葉
- 「リファクタリングへの耐性」は、みんな思っていたことだが名前はなかった。それにこの著者が名前を与え、4本柱に入れようと提案した。その点は本書の価値
SWETメンバー質問:
再現テスト(バグがみつかったときにそのバグを再現させるテスト)はサイズとスコープのマトリクスのどの領域で書くとお得?
t_wadaさん回答要約:
- small x 単体
- 謎の振る舞いが見つかったときにスコープの広いテストで再現させることができたら、最小の単位まで絞り込んでいく。再現ケースをもっとも小さいスコープ・サイズで作れたら勝ち
- 自社開発でもするし、OSS開発でもする。ほとんどの場合そのケースを作れたら修正は容易
まとめ
書籍の内容に限らず単体テストをテーマに幅広い内容の意見交換ができ、書籍を読んで疑問に感じていた部分の解消と、自動テストについての新しい気づきにつながったと感じています。また、SWETメンバーの質問は自分1人で書籍を読んでいたときには気がつかなかった視点もあり、t_wadaさんの回答とあわせて学びの多い時間でした。
個人的には特に次のトピックが印象的でした。
- テストサイズとテストスコープのマトリクス
- 良い設計とテスタビリティの高い設計の関係
- Unknown unknowns領域の収集
この記事がSWETメンバーと同じように「単体テストの考え方/使い方」を読んで疑問に感じた方、さらに理解を深めたい方の参考になれば幸いです。
最後になりますが、t_wadaさん、お忙しい中時間を作っていただきありがとうございました!
ディスカッションの中で触れられた資料のリンク