Scribble at 2025-09-25 18:48:55 Last modified: 2025-09-26 14:12:34

僕は昔から、法学部の出身者であり、企業で情報セキュリティの部長を拝命しているという立場から、いわゆるウェブ・スクレイピングは原則としてウェブサイトに対する正常なアクセスではないと言ってきた。違法行為であることが明白な、他人のコンテンツを吸い取って自分のサイトのコンテンツにしているような連中(料理のレシピや写真、それからウェブサイトのスクリーンショットを吸い出してサイトのコンテンツにしていた事例がある)はもちろんだが、検索エンジンのロボットから生成 AI の教師データを収集するロボットなど、いまでは色々なウェブ・スクレイピングがサーバに負荷をかけたり、インターネットの帯域を消費している事例についても、誰彼に推奨できるようなことではない。

これに関連して、もはや古い判例だとは思うが、「岡崎市立中央図書館事件」というケースについても、僕は当初から本件に違法性があるかどうかは、どのていどの負荷をかけているかという現実の結果にもとづいて判断するべきであって、インターネット上でのアクセス全般が自由だとかいったイデオロギーや観念論で判断したり、あるいは一部の情報セキュリティの専門家と呼ばれる人々(もちろん「ひろみちゅ」と呼ばれる有名人も含まれる)のように、1秒間に1アクセスていどは許されるといった(これも僕らのようなエンジニアに言わせれば「観念論」の一種なのだが)杜撰な思い込みで判断するべきでもないという論陣を張ってきた。これは、通信ネットワーク、情報セキュリティ、法務などの総合的なスキルや知識や経験が必要な、はっきり言わせてもらえば僕らのようなレベルで仕事をしている者の観点を無視して、個々の話題についてオタク的な情報を持っているだけの小僧に議論できるような話ではない。

ネットワーク通信においてリクエストに対するレスポンスのコストというものは、1秒毎だから大きいとか小さいなどと言えるものではない。もしリクエストに対して動画コンテンツをストリーミングでレスポンスするなら、ウェブページの CSS ファイル一つをレスポンスするよりも大きな負荷がかかると考えるのが自然だろう。もちろん、サーバが高いスペックをもっていて、通信ネットワークも非常に太い帯域で高速なレスポンスが可能となっており、仮に動画のペイロードが 100 MB あるとしても、1秒で 100 MB のコンテンツをレスポンスできるとすれば、1秒ごとに動画を1つずつリクエストしてもレスポンスできる。しかし、「できる」からといって好き勝手にやっていいわけではない。

ウェブサイトの運営予算というものは、おおよそ1日にどのていどのアクセスが想定できて、それらに対してレスポンスして問題が生じないていどのサーバや帯域を用意できればいいが、地方公共団体にそんな予算があるわけないのである。僕らが電通や博報堂の案件で構築する、大手上場企業のキャンペーン・サイトですら、プレゼントの応募やコンテンツで遊ぼうとするユーザの集中的なアクセスに十分な対応ができるだけのスペックを用意する予算というものは、なかなか出せないものである。そういうキャンペーンの予算は額面として大きいが、それらはたいてい広告代理店と吉本などのプロダクションに支払われる。ウェブの制作会社など、億単位のプロジェクトでも売上なんて数百万円がいいところだ。サーバの運用費は、その中に含まれており、電通がてがけるナショナル・クライアントの案件ですら、僕らのようなサーバ・エンジニアや情報セキュリティ担当者がキャンペーン期間中に費やすメンテナンスの人件費は持ち出し、つまり「ゼロ」であることが多い。要するに、僕らウェブ制作会社はミノルタやパナソニックや P&G などに、無償奉仕でサーバ・エンジニアとしてのスキルを提供してきているのだ(こういうコストを見積もりに入れたら金額でコンペに負けるという実情もある)。

なんにしても、1秒ごとのアクセスだから軽いとか重いといった茶飲み話をしている暇があったら、実際に岡崎市立中央図書館のサーバでどういう負荷がかかっていたのかを調べることが重要だ。あたりまえのことだが、僕は岡崎市立中央図書館事件でアクセスを送った当事者が図書館のサイトを意図して攻撃したと言いたいわけではないし、このアクセスが DoS のような攻撃だと言いたいわけでもない。また、同じようなスクレイピングを実行していた「カーリル」という図書館を横断する検索サービスについては不問としているが、カーリルと同じていどの負荷だから良いという議論は、僕には異常に思える。それなら、そういう事業者や個人がいくらいてもよく、地方公共団体や国立のサーバは必要に応じていくらでもサーバのスペックや帯域を強化しなくてはならなくなる。この手のサービスがカーリルなど幾つかの事業者に限られているのは、経済的には何の必然性もないことであり、儲かるなら同じ事業者が百でも千でも出てきてもおかしくないし、似たような目的で図書館のデータを使ってなにかやろうと思い立つ個人がたくさん出てきてもおかしくないのである。

なるほど、岡崎市立中央図書館のシステムにも、取引先であるゼネコンやら出入り業者やらの馬鹿がサーバ構築やシステムの開発を手掛けたという欠陥はあったろう。行政機関に入っていくような事業者なんて、IT ゼネコンの一部の事業部だとしても、民間の市場で食っていけない馬鹿か無能の巣窟に決まっているからだ。僕らのように、ナショナル・クライアント案件のサーバやシステムを構築したり運用していたほどのスキルなどあるまい。せいぜい、数年ごとに『情報処理』にカスみたいな論文を投稿するような暇人である。しかし、レスポンス側のサーバやサイトに欠陥があったということは単なる偶然であり、どのていどの負荷をかけたかという具体的な規模の議論とは別にするべきだ。100 の規模だと馬鹿が構築したサーバでは裁けないが、僕らが構築したサーバなら裁ける、だからといって 100 の負荷をかけることが無罪であるなどという理屈は成り立たないのである。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


共有ボタンは廃止しました。他人へシェアしてる暇があったら、ここで読んだあなたが成果を出すべきです。