2012年06月20日

ロングテールの、ほとんど知られていない、しかしもっとも重要な性質

longtail.jpg

 一時期ロングテールという言葉が大流行しました。wikipedia に載っているこのグラフで有名な奴です。
Long_tail.png

 しかしこのロングテールが必ず持つある性質についてはほとんど知られていません。それは「多いのから少ないのまで『同じくらい』ある」ということです。「多いのは少ししかなく少ないのが無数にある」ということは良く知られていますが、それよりも遥かに強い性質です。具体的にどのような性質か次のグラフで覚えます。(平成21年経済センサスの第13表から作成しています)
categorized.png

 このグラフは次のように読みます。
・従業員が1人から9人の零細企業で働いている人は全体の25%くらい。
・従業員が10人から99人の中堅企業で働いている人は全体の50%近く。
・従業員が100人から999人の大企業で働いている人は全体の20%程度。
・従業員が1000人以上の超大企業で働いている人は全体の5%程度
 実は70%以上の人が従業員100人未満のいわゆる中小企業で働いています。その中でも中堅に50%が集まり、いわゆる大企業で働いている人は25%程度です。(本来の中小企業や大企業の定義はいろいろあります。ここでは平明な表現を優先しています)

 上のグラフを少し細かくしたグラフは次のようになります。
categorizedfine.png

 より細かくするときれいな山型になります。中堅企業辺りの人数がより多くはありますが、小さい企業から大きな企業まで人々が散らばっています。街頭でアンケートすれば、それぞれのサイズの会社に勤めている人を見つけるのはそれほど難しくなさそうです。

 これが「多いのから少ないのまで『同じくらい』ある」ということです。グラフでこれだけ差があるのに「同じくらい」という表現は違和感を覚えるかもしれないので、「多いのから少ないのまで存在感がある」と言うことにします。

 つまり、ここまで「大企業で働いている人もいれば零細企業で働いている人もいる」というごくごく当たり前のことを言ってきたわけです。このごくごく当たり前のことがロングテールと極めて深い関係にあります。その関係を見てみましょう。

 冒頭のwikipediaのロングテールのグラフは、数の多いものから順番に並べることで作ります。例えば有名なアマゾンの例では、たくさん売れるものからその販売数を順に並べることでロングテールのグラフができます。たくさん売れる物は極一部で、ちょっとしか売れない物が無数にあるというグラフです。これは「規模と順位のグラフ」と呼ばれます。

 従業員の例では次のようなグラフを考えます。全ての企業を従業員数の多い順に並べます(平成21年経済センサスの第13表とネット上にある上場企業ランキングを使いました。)。
1位 A社 90199人
2位 B社 87129人
3位 C社 77146人
......
5,870,743位 ZZ社 1人
これをグラフにするとこうなります。
longtailraw.png

・・。これはグラフと呼べるのでしょうか・・。そう冒頭のwikipediaのロングテールの例としてのグラフは真っ赤な嘘なのです。概念を説明するため仕方なくあのように描かれますが、現実のロングテールは大抵ほぼぴったり軸にくっついてしまいます。これでは何も分かりませんので、10,20,30・・・という目盛りではなく、1,10,100,1000・・・という目盛りを使うと次のようになります。
longtaillog.png

 きれいな右肩下がりのグラフになりました。このグラフが完全に直線のとき冪乗則(べきじょうそく)と呼ばれる関係になります。冪乗則はロングテールを持つ代表的な関係です。

 そしてこのエントリのタイトルである「ロングテールの、ほとんど知られていない、しかしもっとも重要な性質」とは、もし冪乗則が完全に成り立つと「多いのから少ないのまで同じだけある」が完全に成り立つと言うことです。従業員の例でいえば、さっきのグラフは平らになります。1〜9人の会社に働く人が100万人なら、10〜99人、100〜999人、1000〜9999人の会社で働く人も100万人という関係です。しかし、さらには0.1人〜0.9人や100万〜9999万人、さらにその外側でも100万人になりますが、もちろん現実にはありえません。したがって右肩下がりのグラフは直線ではなく少し弓型になりますし、従業員の分布も山型になります。それでも「多いのから少ないのまで『存在感がある』」という性質は十分兼ね備えているといえます。

 さらに言えば、関係は反対です。「多いのから少ないのまで存在感がある」とき、そのグラフはロングテールを持つ冪乗則になるのです。このような例はたくさんあります。
・大きい動物は種類が少なく、小さい生き物は種類が多い。
・何百万も再生される動画は数が少なく、少ししか再生されない動画は無数にある。
これらはロングテールの説明として典型的な言い回しですが、このとき「もっとも重要な性質」として、もう一歩踏み込んで、どのサイズのものも同じ程度の存在感ができています。何百万も再生されるごく一部の動画の総再生数と、数万再生されるたくさんの動画の総再生数と、数百しか再生されないしかし無数にある動画の総再生数はだいたい同程度になっているのです。

 なぜこのような現象が多く見られるのか。それは多様性を元に繁栄するときこのような関係が生まれます。その話はまたいずれ。ぜひ身の回りのロングテールを見つけて、多いのから少ないのまで存在感が分布している表現、つまり何百万も再生されるごく一部の動画の総再生数と、数万再生されるたくさんの動画の総再生数と、数百しか再生されないしかし無数にある動画の総再生数はだいたい同程度になるというような表現ができることを確かめてみてください。

 次にロングテールのように見えて、ロングテールではない例をご紹介しようと思います。(続く

 注:なお専門的にはこの少し弓型の関係は Double Pareto-Lognormal Distribution (DPLN) という関係でより詳しく説明できます。冪乗則で多いのから少ないのまでが均等になったり、DPLN で山型になることは手元で確認してますしが、ネットでは見たことがありません。この話もまたいずれ。
posted by 産業創出ネットワーク at 10:00 | TrackBack(2) | 記事 | このブログの読者になる | 更新情報をチェックする
×

この広告は90日以上新しい記事の投稿がないブログに表示されております。