1章. Hilbert までの不変式論 ver.2025.02.17

1. 不変式の概念と Hilbert より前の不変式論

私のサイト https://shayashiyasugi.com の https://shayashiyasugi.com/hilberts_invariant_theory_till_1890 以下の Web文書のテーマは、19世紀代数学の中心分野の一つであった不変式論(英:Invariant theory, 独: Invariantentheorie)において、ドイツの数学者 David Hilbert が行った研究の内、1890年の論文[Hilbert1890]までの研究の歴史を解明することである。

現代では、それほど中心的とは言えない不変式論だが19世紀には盛んに研究され、また、多くの文献が出版され、若き Hilbert が「論文の洪水」と喩えたほどだった。2章で解説する1900年の Hilbert の「23の数学の問題」の第14問題も不変式論の問題である。

その誕生に19世紀の不変式論の研究が大きく関わっていると考えられている数学分野は多く、例えば、線形代数、グラフ理論、可換環論と現代代数幾何学、線形計画法の整数計画法などがある。そして、これらの内、最後の2つがともに Hilbert不変式論の影響と考えられている。特に、現代的な代数幾何学の入門講義の最初に学ぶ、代数幾何学の代数集合の概念と零点定理は、どちらも、Hilbert不変式論にルーツを持つと言える(ただし、零点定理は、このWeb文書が対象とする期間より後に考えられたものである)。

不変式論は19世紀後半の英国に起源を持つ。その創始者が誰かには諸説あるが、一つの数学分野として成立させた最大の貢献者が線形代数の研究で知られる Arthur Cayley であり、その Cayley の膨大な不変式論研究の切っ掛けを作ったのがブール代数で知られる George Boole の代数学研究だったことは間違いない。この1章では、この Boole と Cayley と不変式論の話と、19世紀不変式論の中心概念である不変式 invariant と、もう一つの中心概念 covariant の定義、そして、Hilbert 以前の不変式論を解説する。

英語の単語 invariant には不変式という定着した和訳があるが、covariant には、そういうものがない。他にも適切な和訳が無いものが多く、そういう時には英語、あるいは、ドイツ語で呼んだり、書いたりする。

このWeb文書では、原資料を多数掲示するが、Hilbert がドイツ語圏の数学者であるため、その多くはドイツ語の資料である。信頼できる英訳がある場合には、そちらを使って説明し、また、用語も出来るだけ英語(英訳)を使う事を原則とする。ただし、資料では出来る限り、この原則を守るが、ここまでそうしているように「不変式論」の様な、非常によく定着している和訳は、そのまま使う。

ちなみに、ドイツ語圏の歴史を英語を通して語るのは不適切にも見えるが、英語とドイツ語は極めて近い言語で、そのためと思われるが英語とドイツ語間の自動翻訳は極めて性能が高く、21世紀の現代においては、英語を通して、ドイツの歴史を語ることには、例えば20年前に比べれば大きな障害はない。たとえば、Google翻訳ではコンテキストも考慮して翻訳が行われており、多くのケースでは人が翻訳したものと同等以上の品質を持つ。

1.1. 用語などの準備

次の第2節で不変式, invariant, Invariant を定義するが、用語を導入するときには、この様に、日本語、英語、独語の順番に並べて、その表記を示する。しかし、標準的和訳がないものも多いので、その時は、英語、独語のみで、たとえば covariant, Kovariant の様に書く。

不変式の定義には大きく分けて19世紀的定義と現代的定義の二通りがあり、このWeb文書は19世紀の数学である Hilbert不変式論がテーマなので、講義中に使うのは19世紀の定義の方である。しかし、19世紀の定義は、1.2で解説する不変式の発見の経緯を知ればわかる様に、かなり人工的・技巧的なもので分かりにくい。これに対して、現代的定義は、すっきりしていてわかり易い。そのため、それは19世紀的定義を見て、もやもやした人の解毒剤にもなるので、現代的定義も説明する。

1.1.1 多項式(整式)の用語の確認

不変式は多変数多項式の一種なので、多変数多項式の用語を確認しておこう。\(x,y,z\) を変数とする \(\mathcal F\) という3変数多項式が、 \[ {\mathcal F}(x,y,z)=\sum_{i,k,l} c_{ikl}x^iy^kz^l \qquad\qquad i,k,l=0,1,\ldots,5 \] と与えられているとしよう。この式は Hilbert の1897年の不変式論講義[Hilbert1897]の英訳[Hilbert1993]から採ったものである。j が使われてなくて、変だが、Hilbert に従った。

Hilbert の Gordan の定理のおそらくは最初の別証明では代数学の基本定理を使うので複素係数で考える必要があるが、こういう数少ない例外を除くと、このWeb文書で議論する事の殆どは、一般の体でも通用する。しかし、19世紀の話なので、とりあえず、係数、変数は複素数\(\mathbb{C}\)を表していることにする。

話題1:19世紀数学における体論
Dedekind の共同研究者で Hilbert の師の一人でもある Heinrich Weber 抽象体の概念を導入したのは1893年だが、現代的体論の嚆矢と言える Steinitz の抽象体の理論の論文が発表されたのは1910年である。19世紀においては、抽象的な体の理論は未発達で、Dedekind が彼の代数的整数論で体 Körper と言う時にさえ、それは複素数体の部分体であった。
その一方で、Dedekind の代数的整数論とライバル関係にあったとされる Kronecker の代数理論あるいは一般算術 allgemeine Arithmetik は Rationaltätsbereich (domain of rationality)というものを基礎にしており、これは現代的に考えれば係数を整数に限った有理関数である。しかし、数学における抽象的存在を数学への哲学の侵入と考えて強く嫌った彼は、これを数式とみなし、また、変数にあたるものを代数拡大での不定元の様に使った(参考)。Steinitz の論文は、Kronecker の理論からの影響が非常に強く、Kronecker の名前は11回現れる。その一方で、Dedekind の名前は2回しか現れない。

\(c_{ikl}x^iy^kz^l\) のひとつひとつを 項, term, Term と呼ぶ。また、\(c_{ikl}\) を、その項の 係数、coefficient, Koeffizient という。 \(i+k+l\) を、この項の 次数, order, Grad というが、複数ある項の最大次数を \(\mathcal F\) の次数と呼ぶ。

項一つだけからなる多項式は、単項式, monomial, Monom という。係数が vanish している項、つまり、係数が \(0\) の項は書かないのが普通だが、一般論を議論するときは、そうもいかず係数 \(0\) の場合も許容することは言うまでもない。上の例の \(\mathcal F\) の次数は、係数が vanish していないならば15となる。

係数は一般には定数だが、変数であることもある。実際、19世紀的な不変式は、ground form, Grundform あるいは base form と呼ばれる「係数がすべて変数である様な一つあるいは複数の斉次多項式」に対して定義されている。たとえば、 \[\tag{1} f=a_0x_1^2+2a_1x_1x_2+a_2x_2^2 \] という2変数2次の斉次多項式の一般形を ground form とする不変式とは、後で説明する invariance という条件を満たす \(a_0,a_1,a_2\) を変数とする3変数多項式なのである。

ちなみに、\(2a_1\) は単なる変数ではなく、 \(2\) つまり、\(\binom{2}{1}\) という2項係数が付いているが、これは \(a_1x_1x_2+a_1x_2x_1\) の事だと位に思って欲しい。19世紀の不変式論では、ほぼいつも、この場合の 2 のような「重み付き」の係数で ground form が表されており、そういう前提で議論が進められているので注意が必要である。

現代の数学、特に20世紀的な抽象数学では、補足資料で示す様に、「式の様な表現を消し去ろうとする傾向」がある。しかし、19世紀の代数的な数学、特に不変式論は多分に式中心で、そのため式の表現も重要である。たとえば、この講義の歴史の話でポイントの一つとなる「isobaric な式」という概念があるが、これは例えば、\(a_0a_2-a_1^2\) を、\(a_0a_2-a_1a_1\) だと考えて、二つの項 \(a_0a_2\), \(a_1a_1\) に現れる変数の添え字の和、つまり、\(0+2\) と \(1+1\) が一致していることを言う。また、その一致した値を、その式の weight Gewicht という。後で、「binary quadratic の不変式」の定義をするときに、weight という概念がでてくるが、それに一致する値である。

現代の我々は、添え字は一意的な識別さえできれば、極端に言えば \[ f=a_2x_1^2+2a_0x_1x_2+a_1x_2^2 \] の様にランダムについていても良いと思い勝ちであるが、そういうことをすると、この概念は意味が無くなる。この概念は、\(i\) という添え字が付いている変数 \(a_i\) が、\(x_1^{2-i}x_2^i\) の係数として使われていることを前提としているからである。添字の和が一致するという条件だけならば、\(a_0,a_1,a_2\) でなく、\(a_1,a_2,a_3\)、つまり、 \[ f=a_1x_1^2+2a_2x_1x_2+a_3x_2^2 \] としても問題ないが、weight の値は変ってしまう。つまり、こういう添え字の付け方をすることさえ許されないのである。ちなみに、この概念には、添え字に依存しない別の定義がある。しかし、このWeb文書の Hilbert 不変式論の歴史の話では、この添え字の付け方に依存する定義の方が、それより重要な役割を果たすことになる。

1.1.2. 形式 form

(1)の \(f\) を2変数2次の斉次多項式と呼んだが、これは2変数の2次形式とも呼ばれる。線形代数で実対称行列の対角化の応用として2次形式の標準化を学んだことと思うが、あの2次形式である。これが3次の同次式となると3次形式という。一般に、同次式のことを代数形式、form, Form というからである。直訳ならば、form は「形式」だが、2次形式などの用語が普通に見られる反面、この言葉は滅多に用いられないので、この講義では英語で form ということにする。時々、ドイツ語で Form と言ったり書いたりすることもあるかもしれない。

19世紀にはこの form が数学の重要な研究対象で、そのため、2変数の2次形式、3変数の2次形式、2変数の3次形式などに、固有名詞の様なものがつけられていて、これら三つは、英語で、それぞれ binary quadratic, ternary quadratic, binary cubic などと呼んだ。(1)は binary quadratic の一般形なのである。古い文献を読むためには、これらの用語を理解しておく必要がある。

しかし、19世紀数学の歴史の話ではあるが、これらはあまりに面倒なので、なるべく使わない。しかし、binary (2変数)という用語だけはこのWeb文書でも頻繁に使う。2変数の form は、3変数以上に比べて非常に特殊な(良い)特性を持つため、不変式論において特殊な位置を占めるており、Hilbert不変式論の歴史的な話においても、この binary な form が重要な役割を果たすからである。また、「2次」を意味する quadratic も使う。これには、特に意味は無く、この講義の準備のために見た19世紀の文献で、binary quadratic という言葉をあまりに多く見過ぎたために、林の脳にそれがインプリントされてしまっているからである。

invariance 不変性という言葉は、「ある変化に対して、何かが変らないこと」を示唆する。不変式論は、そういう不変性を持つ代数式を研究する分野なのだが、19世紀の不変式論のほとんどは、そういう不変性を持つ多変数多項式についての研究であった。また、その不変性により、それらの多項式は自動的に form になるので、不変式論、あるいは、代数的不変式論とは、「何かの変化」に対して、その本質を変えることがない form の研究だと言える。 そして、その「変化」とは、(1)の様な binary の form の場合には、次の様な線形変換である。 \begin{equation}\tag{2} \begin{aligned} x_1 & = \alpha_{11}x_1'+ \alpha_{12}x_2', \\ x_2 & = \alpha_{21}x_1'+ \alpha_{22}x_2' \end{aligned} \end{equation} ただし、(2)の変換は必ず可逆だとする。つまり、この線形変換により、\(x_1,x_2\) と \(x'_1,x'_2\) は相互に変換されあうわけである。

そして、この様な可逆な線形変換により変化しない代数の式を研究するのが、19世紀的な不変式論だった。その典型として、2次に限定した 「binary quadratic の不変式論」を説明しよう。

(2)を変数変換と見なして、(1) の \(f\) の \(x_1,x_2\) に(2)の右辺を代入して \(x'_1,x'_2\) の新しい式に変換 transform しても、 (2)の線形性から、それはやはり binary quadratic となる。それを \[\tag{3} f'=a'_0{x'_1}^2+2a'_1x'_1x'_2+a'_2{x'_2}^2 \] とすると、(2)が与える変化に伴い係数 \(a_0,a_1,a_2\) から新係数 \(a'_0,a'_1,a'_2\) への変化が導かれる。それを explicit に書くと、後ででてくる(6)になる。そして、この(3)による3係数の変化(6)によっても、その代数式としての本質を変えることがない3変数の form 、つまり、ternary form が binary quadratic の不変式であり、それを研究するのが「binary quadratic の不変式論」なのである。

「binary quadratic の不変式論(2変数2次の不変式論)」なのに、研究するものは3変数で任意次数の form なので注意が必要である。この問題設定は、変化するものが(2)と、それが引き起こす(3)の2段になっている所が複雑だし、第一、なぜこのような問題を考えたのか、その動機が分からない。そこで、この様な問題を19世紀の数学者たちが研究する切っ掛けとなった、 最初の不変式の発見の歴史的経緯を説明し(1.1.4)、その後で、不変式の19世紀的定義を行う(2)。

しかし、その話に入る前に、もう一つ、19世紀の数学者たちが使っていた用語の解説をしよう。それは、既に何度か使った「変換」という言葉である。19世紀から現代の間に用語の使い方の変化があり、現代の数学に慣れた読者に混乱が生じるかもしれないと思うからである。

1.1.3. 「変換」という言葉の使い方について

1.1.2の(2)を線形変換と呼んだ。また、その(2)で代入して、\(f\) を \(f'\) に変換する、とも言った。現代の数学に慣れたみなさんに混乱が生じるかもしれないと懸念しているのは、この二つの「変換」という言葉の使い方である。 実は、この(2)の式は、Hilbert の1897年の不変式論講義[Hilbert1897]の英訳[Hilbert1993]から採ったもので(例えば、pp.9,12,17など)、英訳では「線形」とは言っておらず単に「変換」 transformation と呼んでいる。残念ながら、その原文である[Hilbert1897]の当該部分のコピーを入手できないでいるが、Hilbert の色々な論文を見ると、これに当たるものは、 Substitution と書かれていることも多い。つまり、「代入」である。実際、Hilbert は、これを1.1.2の最後の方にでてきた(2)の式による(1)の form への代入による変数変換という意味で使っている。つまり、(2)で(1)の \(f\) を変換して(3)の \(f'\) を得ることを transformation 変換 と言ったのである。

これが Hilbert だけでなく19世紀の数学者の普通の語の用法であることは、文献表の19世紀の文献、たとえば[Salmon1885]を transform, transformation, transformed などで検索してみれば分かる([Cayley1845]も良い例である)。[Salmon1885]で、それが最も良く分かるのは、おそらくp.108から始まる "LINEAR TRANSFORMATIONS" と題された LESSON XII の冒頭であろう。それは"119. Invariants"と題された節で始まり、本資料の次の項1.2で紹介する歴史上最初の不変式が紹介されている。つまり、1.2で話す内容から歴史的経緯の話を除いた様なことが書かれているのである。その中に、次の様な文が書かれている。

Now the substitution of \(x+\lambda y\) for \(x\) is a particular case of the general linear transformation, where, in a homogeneous function, we substitute for each variable a linear function of the variables; ...
強調と下線は林による。

二つの強調がされている文は要するに「\(x+\lambda y\) の \(x\) への substitution は linear transformation の一例である」と言っている。現代日本の数学用語で言えば「\(x+\lambda y\) の \(x\) への代入は線形変換の一例である」になってしまって気持ちが悪い。現代の我々は linear transformation の transformation を写像や関数の同義語の様に感じるからだ。一方、Salmon が言わんとしていることを現代の用語で書くとしたら、下線部分の a linear function を、より数式にふさわしい用語である「一次式」と訳することにして、「\(x+\lambda y\) の \(x\) への代入は、変数に対して一次式を代入するという、線形変数変換の一例である」位になるだろう。ちなみに、function や map は、入出力の値の対からなる集合、つまり、グラフである、という見方は、20世紀になって生まれたもので、このころはまだ無く、function は何かの値を表す数式という意味で使われるのが普通であった。

こんな具合だから、19世紀の数学者が、式を提示した後で the variables are tranformed by (2) と書いたとしたら、それは式の変数に(2)により代入をすることなのである。また、このことから、変数 \(x_1\) を一番簡単な式とみなすと、"\(x_1\) is transformed to \(\alpha_{11}x_1'+ \alpha_{12}x_2'\) by (2)" という事になる。

要するに、この Substitution という単語の使い方は、高校数学以来、慣れ親しんでいる置換積分 integral by substitution \[ \int f(x)dx= \int f(g(x'))g'(x')dx' \] での置換という単語の使い方と同じで、(2)での変数についているプライムの使い方は、 \(x=g(x')\) でのそれと同じなのである。

つまり、Hilbert の(2)のプライムの意図は、 \(x_1,x_2\) が「古い」あるいは「元」であって、それを変数変換して \(x_1,x_2\) の式を、「新しい」変数 \(x'_1,x'_2\) の式に書き換えるという意図なのである。また、(2)は逆変換可能なものしか考えていないし、Hilbert は(2)を relation と呼んでいるので、(2)で意図されているものが \(x_1,x_2\mapsto x'_1,x'_2\) という写像だと考えても不自然ではないだろう。

「線形変換」と「変数変換」は日本語ではともに「変換」だが、英語では、前者は linear transformation で後者は change of variables である。線形変換の変換 transformation は、現在では英語でも写像や関数の意味に使われている。しかし、 そう解釈すると、(2)の入力側の \(x'_1,x'_2\) こそ、元の値で、出力側の \(x_1,x_2\) の方が新しいというイメージを少なくとも私は持ってしまう。これでは、Hilbert の様な19世紀の数学者の用法とニュアンスが逆なのである。

実際、1999年の Olver による Classical Invarinat Theory という教科書[Olver1999]のpp.13-14では、(2)の \begin{equation} \begin{aligned} x_1 & = \alpha_{11}x_1'+ \alpha_{12}x_2', \\ x_2 & = \alpha_{21}x_1'+ \alpha_{22}x_2' \end{aligned} \end{equation} にあたるものが、 \[ \begin{aligned} \bar{x} &= \alpha x+ \beta y,\\ \bar{y} &= \gamma x+ \delta y \end{aligned} \] と書かれており、この change of variables により、式 \(Q(x,y)\) が、式 \(\bar{Q}(\bar{x},\bar{y})\) に map され、その両者の関係は、 \[\tag{*} \bar{Q}(\bar{x},\bar{y})=\bar{Q}(\alpha x+ \beta y,\gamma x+ \delta y)=Q(x,y) \] だと書かれている。バーとプライムの違いは、あるが、その意図は同じく「新旧の新」であろう。

係数 \(a_i\) や \(\alpha_{ij}\) が実際の数値である具体的な数式 \(Q(x_1,x_2)\) と線形変換(2)が与えられたとき、19世紀の言葉の用法ならば、(2)で代入を行うだけで変換 transform 先の \(Q'(x'_1,x'_2)\) が求まる。しかし、Olver の様にすると、上の関係式(*)に当てはめて数値計算を行なって初めて map 先の \(\bar{Q}\) という数式が得られるわけだが、少し考えるとわかるが、それは(2)の逆変換を計算して、それを19世紀と同じ方法で代入していることと同じことだとわかる。実に迂遠である。

それなのに、わざわざ、この形で書いているのは、おそらく、19世紀の数学者ならば、「substitution をする」という意味で transform という所を、map と言い、それを mapping, function に結び付けて考えたからではないかと思うのである。Mapping なら、「元」は \(x,y\) の方で、map された先の新しい変数が \(\bar{x},\bar{y}\) だとする方が自然である。これはつまり、19世紀と20世紀では、同じ線形変換 linear transformation と言っても、実は違うもので、もう一方が言うところの変換の逆変換を意味しているということである。

私は Hilbert の講義録で不変式論を勉強したので、東大の講義の準備のために Olver の本の、この箇所を最初に読んだ時には不自然に見えて大変混乱した。19世紀の数学者が、突然20世紀終わりの教科書を読まされた様なものだったのである。

Web文書のテーマは19世紀の数学の歴史であるので、19世紀のテキストを多く提示する。実際、今まで書いてきた(2), (3) などの数式からして、[Hilbert1897]の英訳である[Hilbert1993]からコピーしたものなので、19世紀のものなのである。そして、解説の際には19世紀の伝統的用語法を使う。もし、Olver の書き方の意図の私の解釈が正しいならば、Olver を読んで混乱した私の混乱の逆の混乱をする人がいるかもしれない。注意して欲しい。

1.1.4. Kung と Rota のモノグラフ

20世紀後半に書かれた古典的不変式論の有名なモノグラフに[Kung&Rota1984]がある。そのpp.30-31では、現代的な明瞭さは保ちつつ、19世紀の数学者と同じ用語法で不変式が定義されている。そして、このWeb文書の不変式の定義も、用語や記号などを、1897年の Hilbert の不変式論講義[Hilbert1993]のそれに近づけつつも、基本的には、このモノグラフのものである。

第二著者ながら、実際の主著者であったはずの Rota という人は、抽象数学全盛の20世紀後半に、それ以前の数学、つまり19世紀以前の数学にも抽象数学とは異なるメリットがあることを示して、それを復活させた combinatorics の研究で知られる人である。彼は20世紀的抽象数学に少なからぬ違和感を持っていた様で、このモノグラフには、次の様な一節がある(強調と下線は林による)。

Our language and notation are, wherever possible, patterned after nineteenth century usage. It might have been easier to adopt instead one of the many—too many, perhaps —equivalent languages that have been taking turns in the annual Paris display of mathematical fashion.
哲学の著作もある Rota らしい、少し気取った分かりにくい英語なので、邦訳をつけておく。
我々が使う言語と記法は、可能な限り19世紀のものに従った。そうではなく、それと同等の現代的言語の一つを使った方が、あるいは解り易いかもしれない。そういう現代的言語は、まるで目まぐるしく変わるパリのファッションの様に、嫌というほど数多く生み出されている。

このWeb文書と同じで意識的に19世紀的であることが分かる。このWeb文書は歴史のWeb文書だから、そういう態度は当然なのだが、このモノグラフは、そうではない。Rota のモノグラフと、その中のこのフレーズは、このWeb文書で見ることになる19世紀の数学者たちが抱いた数学の現代化・近代化に対する違和感というものが、決して、保守性や古臭さだけから来るものではないことを示しているように私には思える。

ところで、下線の Paris 云々という部分は、おそらく、20世紀抽象数学の普及に大きく貢献したフランスの数学者集団 Bourbaki のスタイルを過剰に抽象的だと考える Rota の皮肉だろう。

Bourbaki は、Hilbert が祖の一人である現代数学の完成者と言って良い。Bourbaki グループの目的は、全数学を集合論を基礎にして書き変え、それに基づく大学・大学院レベルの教科書を出版することだった。林が立教大学の数学科に入学した1970年代初めは、おそらく日本での Bourbaki の全盛期で、Bourbaki の教科書の翻訳「数学原論」を知らない数学科の学生は、まずいなかったと思う。しかしそれが、1990年代終頃か2000年代前半に、広島大数学で数学史の集中講義を行った際には、Bourbaki 自体を知っている学生は、確か半数もいなかったように記憶している。そして、有名だった和訳の「数学言論」も、現在は、「数学史」のみが文庫本として残るだけで、他はすべて絶版になっているという。

つまり急速に影響力が低下したともいえるのだが、実は、これは、Bourbaki のスタイルが当たり前のものになったからだろう。モダニズムという言葉があるが、そのモダニズムが最も成功した分野が建築と数学だと林は考えている。その数学におけるモダニズムこそが、このWeb文書のテーマである Hilbert の数学、そして、その完成形である Bourbaki の数学なのである。

もう一方の建築、それも個人建築のモダニズムのシンボルが、建築家土浦亀城(つちうらかめき)の、この自邸である。 どう見ても、極くありふれた「何とかハイム」「何とかハウス」の少し古びたものにしか見えないが、実は、これは昭和10年、西暦1935年に建てられたもので、その「ありふれた家」すべてのモデルとなったと言われているものなのである。Bourbaki のスタイルは消えたというより、この家の様に当たりまえになってしまい、ありふれたものになり、忘れられた、といえる。しかし、それは、逆に言えば、最大の成功を収めたのだとも言える。

1.2. 不変式の発見

さて、話を元に戻して、不変式の定義であるが、一般的定義を説明する前に、まず、不変式がどの様にして発見されたかの経緯を説明しよう。 形式 form という言葉を説明するために、「2次形式の標準化」を引き合いに出したが、実は、不変式という概念のオリジンは、この2次形式 quadratic form の標準化にある。と、言いつつも、実は、それはランダムと言っても良いような自由過ぎる数学思考が偶然に生み出したと言った方が良いようなものだった。

詳しい話は、数学史の代表的な専門誌 Historia Mathematica に掲載された論文[Wolfson2008] に譲るが、ブール代数で有名な数学者 George Boole が、[Boole1841],[Boole1842]という二つのパートからなる論文で、この2次形式の標準化の方法を大幅に拡張するという研究を始めたことが、その不変式論という19世紀数学の一大分野の成立の切っ掛けだったのである。

Boole はm変数n次の一般の場合で考えているが、簡単のために、binary quadratic で彼が行ったことの概略を説明しよう。 変換(2)が直行変換である事は、すべての \({x'_1},{x'_2}\) に対して、\({x'_1}^2+{x'_2}^2={x_1}^2+{x_2}^2\) が成り立つ事と同値だが、 Boole は、これを、それぞれ \(x_1,x_2\) と \(x'_1,x'_2\) を変数とする、二つの binary quadratic \(q=x_1^2+x_2^2\), \(r={x'_1}^2+{x'_2}^2\) の間の等式 \(q'({x'_1},{x'_2})=r({x'_1},{x'_2})\) の事だと捉えた。ただし、\(q'\) は、先ほど説明した19世紀の言語で言う所の \(q\) を線形変換(2)で変換してできた式である。

また、この条件を充たす(2)により binary quadratic \(A_0{x_1}^2+2A_1{x_1}{x_2}+A_2{x_2}^2\) を 2次形式の標準形 \(B_0{x'_1}^2+B_1{x'_2}^2\) に変換するという事は、binary quadratic の一般形 \(Q=A_0{x_1}^2+2A_1A_2{x_1}{x_2}+A_2{x_2}^2\) の (2) による変換結果 \(Q'\) が \(B_0{x'_1}^2+B_1{x'_2}^2\) と一致する様な変換(2)を見つけることだと捉えた。

つまり、まず、\(q,r,Q,R\) を、 \[ \begin{equation} \begin{aligned} q(x_1,x_2) &= x_1^2+x_2^2 \\ r(x'_1,x'_2) &= {x'_1}^2+{x'_2}^2 \\ Q(x_1,x_2) &= A_0{x_1}^2+2A_1{x_1}{x_2}+A_2{x_2}^2 \\ R(x'_1,x'_2) &= B_0{x'_1}^2+B_1{x'_2}^2 \end{aligned} \end{equation} \] の事だとし、binary quadratic の一般形になっている \(Q\) の \(A_0,A_1,A_2\) が具体的数値として与えられたとき、 すべての \({x'_1},{x'_2}\) に対して \[ \begin{equation} \begin{aligned} q'({x'_1},{x'_2}) &= r({x'_1},{x'_2}) \\ Q'({x'_1},{x'_2}) &= R({x'_1},{x'_2}) \end{aligned} \end{equation} \] が成り立つ様な、線形変換(2)の係数 \(\alpha_{ij}\) の値と \(B_0,B_1\) の値を見つける事が、直行変換 \([\alpha_{ij}]\) による2次形式 \(Q\) の標準化だと考えたのである。

ただし、\(q',Q'\) は、\(q,Q\) に線形変換(2)による代入を行った式である。 つまり、最後の二つの等式は、19世紀的言語を使えば、\(q,Q\) が線形変換(2) により \(r,R\) に変換される事を表している。 ちなみに、\(Q,R,q,r\) などの記号は、Boole が使ったものを、ほぼそのまま使っている。

当然ながら、binary quadratic 2変数2次式の一般形である \(Q\) 以外の三つの \(q,r,R\) も一般の binary quadratic に拡張すれば、2次形式の標準化の問題が一期に拡張される。二次形式の標準化が元は力学への応用のために考えられたものだったのに対し、Boole は彼の一般化が何に役立ち何を目指すのか全く議論していない。その意味では、非常に形式的な一般化であった。

Boole は、\(q,r,Q,R\) を、2変数2次の form から、\(m\)変数\(n\)次の form に一般化し、その上で、これら四つの form の係数と変換(2)の係数 \(\alpha_{ij}\) の間の関係を分析しようとしたが、ここでは説明を簡単にするために2変数の場合だけで考える。

次数が高いと当然問題は難しくなる。そこで、まず、 \(Q'(x'_1,x'_2)=R(x'_1,x'_2)\) と \(q'(x'_1,x'_2)=r(x'_1,x'_2)\) を変数 \(x'_1,x'_2\) で偏微分して次数を下げ、それを新条件式とした。\(Q',q'\) は、\(Q,q\) に(2)で代入を行ったものなので、chain rule により、その新条件は、 \begin{equation} \begin{aligned} \alpha_{11}\frac{dQ}{dx_1}+\alpha_{12}\frac{dQ}{dx_2}&=\frac{dR}{dx'_1} \\ \alpha_{21}\frac{dQ}{dx_1}+\alpha_{22}\frac{dQ}{dx_2}&=\frac{dR}{dx'_2} \end{aligned} \end{equation} となる。

確かに偏微分すると単純にはなるので、ここまでは私も何とか理解できる。しかし、ここから Boole の議論の意図が分からなくなる。Boole は突然、この等式の右辺の偏微分が同時に vanish するという条件 \(\frac{dR}{dx'_1}=0,\frac{dR}{dx'_2}=0\)と、同様に、左辺の二つの偏微分が同時に vanish するという条件を比較し始める([Boole1841],p.7の(7)と(8))。そして、右辺の方が vanish しても、左辺の方は必ずしも vanish しないと言って \(\frac{dQ}{dx_1}=0,\frac{dQ}{dx_2}=0\) という条件の考察を始める。

Boole は、linear transformation と言っているので、(2)を可逆だと仮定しているはずで、それならば、右辺が vanish するならば、\(\frac{dQ}{dx_1},\frac{dQ}{dx_2}\) も vanish しなくてはいけない筈である。その様な関係にある \(Q,R\) を考えるというのが、最初の出発点であったはずなのだが、それがどこかに飛んで行ってしまい、結局、よく分からない議論の末に、Boole は、 \[\tag{4} \frac{dQ}{dx_1}=0,\quad \frac{dQ}{dx_2}=0 \] が、同時に vanish しない解 \(x_1,x_2\) を持つ条件を、一つの代数式で表現する問題を考える様になる。

\(Q\) は binary quadratic の一般形であったはずなのだが、この時点で、\(Q\) に条件がかかってしまった事に注意して欲しい。つまり、最初の出発点の「任意の二次形式の標準化」が、Boole の枠組みから排除されたことになる。 実に奇妙な議論である。先ほど引用した数学史の論文[Wolfson2008]の著者は、これに何とか意味を与えようとしているように思えるが、私には、Boole の議論にも、この著者の議論にも、説得性がないと思う。

要するに実に変な議論を Boole は行ったのだが、これが功を奏した。ここで偶然にも、Boole は、後の不変式論の二つの重要要素を組み合わせて使っていたのである。それは微分、特に偏微分と、行列式であった。そして、それにより、元々の目的より遥かに重要な数学的現象を発見してしまったといえる。

Boole が具体的には、どんなことをして、何を発見したのか、彼の理論の最初の実例だった \(q,r,Q,R\) が binary quadratic の場合を使って説明しよう。まず、この場合の (4)を求める。\(Q(x_1,x_2)=A_0{x_1}^2+2A_1{x_1}{x_2}+A_2{x_2}^2\) だったので、それは \[ A_0x_1+A_1x_2=0,\quad A_1x_1+A_2x_2=0 \] となる。まだ、線形代数が生まれる前のことなので、Boole は消去法を使って考えているが、現代的に言えば、これが「同時に vanish しない解」、つまり、trivial でない解をもつ条件は、係数行列の行列式 \(A_0A_2ーA_1^2\) が vanish することだ。この行列式を Boole に従って \(\theta(Q)\) と書くと、\(\theta(Q) = 0\) である。

そして、Boole は、この \(\theta\) について分析を進め、論文の第一部[Boole1841]の最後に、\(R,r\) が \(Q,q\) を、それぞれ(2)で変換したものという前提で、 \[ \frac{\theta(Q)}{\theta(R)}=\frac{\theta(q)}{\theta(r)} \] という関係式に到達した。これも奇妙なことである。Boole の目的は、2次形式の標準化の方法の一般化であったのだから、適切な線形変換(2)を選んで望んだ形に式 \(Q\) を変換するという話だったはずなのだが、これは(2)の全ての線形変換に対して成り立つのである。

Boole への愚痴は封印して、先に進もう。\(Q,q\) を(2)で transform したものが \(R,r\) だったので、これは、つまり、 \[\tag{5} \frac{\theta(Q)}{\theta(Q')}=\frac{\theta(q)}{\theta(q')} \] である。

そして、これこそが \(A_0A_2ーA_1^2\) の不変性の発見だったのである。ちなみに、Boole は、 \(A_0A_2ーA_1^2\) の他に、3変数の2次形式の場合の \(\theta(Q)\) も例として考えているが、この解説では、binary の場合に専念する。

これが何故「不変性」と呼ぶべきものか説明を続けよう。\(Q\) と \(q\) は、共に binary quadratic だが、それらの係数の間には、Boole は、何も関係を想定していなかった。それにも関わらず、この等式が成り立つということは、非常に面白いことである。

もし、 \(Q\) の係数 \(A_0,A_1,A_2\) や、それに対応する \(q\) の係数が、この等式の両辺に残っていれば、それらは独立なのだから等しくなるはずがない。つまり、この等式の左右両辺の分数式は、もとの \(Q\), \(q\) の係数に依存せず、\(Q'\), \(q'\) を作る際に式に入り込む、変換の係数 \(\alpha_{ij}\) にのみ依存している筈なのである。Boole は、この事を指摘し、その式を explicit に求めて見せた。Boole は、binary quadratic に限らない一般の場合で考えているが、ここでは簡単のために、binary quadratic の場合に限って、この等式が成り立つことと、その explicit な形を見てみよう。この場合に限れば、それは非常に簡単な計算だけで検証できる。

その際に、不変式の定義の説明への接続をスムーズにするために、式の名前が変わるのと係数が大文字か小文字かの違いだけだが、Boole の \(Q=A_0{x_1}^2+2A_1{x_1}{x_2}+A_2{x_2}^2\) ではなくて、(1)の binary quadratic \(f=a_0x_1^2+2a_1x_1x_2+a_2x_2^2\) を使おう。つまり、 \[ \frac{\theta(Q)}{\theta(Q')} \] ではなくて、 \[ \frac{\theta(f)}{\theta(f')} \] で考える。

そうすると、等式(5)の左辺の分数式は、 \[\frac{a_0a_2-a_1^2}{a'_0a'_2-{a'_1}^2} \] になる。これに対して(5)が成り立つということは、その分数式中の変数 \(a_0,a_2,a_1\) を、別の変数に書き変えても、分数式自体は変らないということを意味している。 そして、その様なことが起きるのは、この分数式の分母である \(a'_0a'_2-{a'_1}^2\) が、分子の \(a_0a_2-a_1^2\) に \(\alpha_{ij}\) からできた整式を掛けたものになっているときだけの筈である。

実際にやってみよう。まず、\(a'_0,a'_2,a'_1\) を \(a_0,a_2,a_1\) の整式として表そう。(1)の \(f\)、つまり、 \[ f=a_0{x_1}^2+2a_1x_1x_2+a_2{x_2}^2 \] に線形変換(2)、つまり、 \begin{equation} \begin{aligned} x_1 & = \alpha_{11}x_1'+ \alpha_{12}x_2', \\ x_2 & = \alpha_{21}x_1'+ \alpha_{22}x_2' \end{aligned} \end{equation} で代入した結果を \(x'_1,x'_2\) の form として整理して、(3)、つまり、 \[ f'=a'_0{x'_1}^2+2a'_1x'_1x'_2+a'_2{x'_2}^2 \] を得る。

その \(a'_i\) を explicit に書くと、次のようになる。 \begin{equation}\tag{6} \begin{aligned} a'_0 & = a_0\alpha_{11}^2+ 2a_1\alpha_{11}\alpha_{21}+a_2\alpha_{21}^2,\\ a'_1 & = a_0\alpha_{11}\alpha_{12}+ a_1(\alpha_{11}\alpha_{22}+\alpha_{12}\alpha_{21})+a_2\alpha_{21}\alpha_{22}, \\ a'_2 & = a_0\alpha_{12}^2+ 2a_1\alpha_{12}\alpha_{22}+a_2\alpha_{22}^2. \end{aligned} \end{equation}

これを使って、\(a'_0a'_2-{a'_1}^2\) を計算すると、次の様になる。 \begin{equation}\tag{7} \begin{aligned} a'_0a'_2&-{a'_1}^2\\ =\,& a^2_0(\alpha2_{11}\alpha_{12}^2-\alpha2_{11}\alpha_{12}^2)\\ &+ 2a_0a_1(\alpha^2_{11}\alpha_{12}\alpha_{22}+\alpha^2_{12}\alpha_{11}\alpha_{21}-\alpha_{11}\alpha_{12}(\alpha_{11}\alpha_{22}+\alpha_{12}\alpha_{21}))\\ &+ a_0a_2(\alpha^2_{11}\alpha^2_{22}+\alpha^2_{12}\alpha^2_{21}-2\alpha_{11}\alpha_{12}\alpha_{21}\alpha_{22})\\ &+ a_1^2(4\alpha_{11}\alpha_{21}\alpha_{12}\alpha_{22}-(\alpha_{11}\alpha_{22}+\alpha_{12}\alpha_{21})^2)\\ &+ a_2^2(\alpha^2_{21}\alpha^2_{22}-\alpha^2_{21}\alpha^2_{22})\\ &+ 2a_1a_2(\alpha_{11}\alpha_{21}\alpha^2_{22}+\alpha_{12}\alpha_{22}\alpha^2_{21}-\alpha_{21}\alpha_{22}(\alpha_{11}\alpha_{22}+\alpha_{12}\alpha_{21}))\\ =\,& a_0a_2(\alpha_{11}\alpha_{22}-\alpha_{12}\alpha_{21})^2-a_1^2(\alpha_{11}\alpha_{22}-\alpha_{12}\alpha_{21})^2\\ =\,& \delta^2(a_0a_2-a_1^2) \end{aligned} \end{equation} ただし、\(\delta\) は \(\alpha_{11}\alpha_{22}-\alpha_{12}\alpha_{21}\)、つまり、次の行列式である。 \begin{vmatrix} \alpha_{11} & \alpha_{12}\\ \alpha_{21} & \alpha_{22} \end{vmatrix}

結局、\[\tag{7a} \frac{\theta(f)}{\theta(f')}=\frac{1}{\delta^2} \] だったのである。ちなみに、数学的にはどうでも良い事だが、(7)の計算などは[Hilbert1993]のそれを出来るだけ忠実に再現したものである。

\(a'_0a'_1-{a'_1}^2\) は、\(a_0a_2-a_1^2\) を、変換(6)を通して、変換(2)で transform した式と考えて良いだろう。計算(7)が示す \[ a'_0a'_2-{a'_1}^2=\delta^2(a_0a_2-a_1^2) \] という事実は、その変換に対して、\(a_0a_2-a_1^2\) は定数倍しか形を変えないということである。

一般に \(f\) の係数の整式を、同様に transform しても、この様な事は起きない。たとえば、部分式 \(a_0a_2\) や \(a_1^2\) を transform してみれば、大きく形状が変化し、比を取っても \(a_0,a_1,a_2\) が残ってしまうことが分かる。この意味において、この \(a_0a_2-{a_1}^2\) は、非常に特殊な式なのである。これが変換しても形状がほぼ変わらない式、つまり、不変式なのであり、(7)が示す、この(7a)こそが、式の不変性 invariance なのである。非常に興味深い数学的現象が発見されたわけであり、これが不変式論誕生の契機となった。

すでに説明した様に、Boole の本来の目的からすると、この結論は意味がない。しかし、独り言、あるいは、おしゃべり、わるく言えばランダム、良く言えば自由な議論が功を奏して、非常に興味深い数学の現象が発見されたわけである。

現代ならば、論文で、この様な議論をすれば、査読者から「最初の目的から脱線している。掲載不可」か「最初の目的から脱線している。しかし、面白い現象を発見しているので、そちらを主にして書き直せ」などのコメントが来るだろう。しかし、この時代、まだ現代の様な査読と言うシステムが無かった(参考)。そのため、Boole の論文は、そのまま掲載された様である。そして、そうして生まれた不変式論というものが、やがては Hilbert 不変式論を通して、現代抽象数学の誕生に寄与したわけである。

Boole の自由な推論の背景には、当時、英国で力を持っていた「英国抽象代数学派」の精神があったのかもしれない。この学派の人たちは、uninterpreted な操作や記号の重要性を強調した。例えば、Boole は、その論理学研究で、命題の割り算を平気で行っている。この推論は、そのような uninterpreted なものだったのだろう。

ところで、Boole は論理学研究ばかりが有名だが、実は、それ以外の数学の研究も多く行っており、たとえば、今は知らないが以前は工学部で良く教えられていた定数係数線形常微分方程式の演算子法による解法も Boole の発明である。しかし、この様な偶然で不変式を発見した Boole が後に論理学の代数化に取り組み、それが、不変式論で代数学を変えた Hilbert の晩年の Hilbert 計画に結び付いたのだから、つくづく歴史とは面白いものだと思う。ちなみに、良く言われる「ブール代数は0と1の代数だ」「Boole がブール代数を生んだ」「Boole は命題論理の代数化を行った」などという話は全部間違いなので注意して欲しい。現在、ブール代数と呼ばれているものは20世紀にハーバード大学の数学者が定義した抽象代数系であるし、Boole が代数化しょうとしたのは項論理学 Term logic である。さて、話を戻そう。

Boole は、[Boole1841]の最後の部分(pp.18-19)で、\(a_0a_2-a_1^2\) だけでなく、彼の方法で得られる他の \(\theta(Q)\) に対しても、\(\delta^2\) が一般の \(\delta^m\) になるだけで同様のことが起きることを示している。これが不変式論の萌芽だったのだが、第一発見者 Boole は、この現象を \(\theta(Q\)) の remarkable property と呼んだものの、この問題を、それ自体としてさらに追及することはなかった。

しかし、この発見に非常に大きな感銘を受けたのが、数学者としてのキャリアを始めたばかりの若き Arthur Cayley であった。線形代数の父というべき、あの Cayley である。彼は1844年に Boole に手紙を送り、二人はしばし連絡を取り合い、その中で、新たな不変式を発見したりしているが、その話は Cayley の伝記[Crilly2006]に譲り、Cayley が最初 Hyperdeterminat と呼んだ、不変式の定義を説明しよう。

2. 不変式の定義 (19世紀バージョン)

Boole の発見を元に、不変式一般を定義しよう。そのために、まずは、Boole が発見した \(a_0a_2-a_1^2\) の不変性とは何であったか、今までの話を纏めてみよう。

まず、(2) の様な \(x_i,x'_i\) 間の可逆な線形変換の全て考える。Boole の本来の目的では、2次形式の標準化の時の様に、与えられた form を特定の形の form に変換をしてくれる線形変換を、一つ見つければよかったのだが、偶然見つかった不変式の場合は、すべての可逆変換を考えることになってしまっていることに注意しよう。

(1)の binary quadratic を、これらで変換し(3)の \(f'\) を作ることにより、\(f,f'\) の係数 \(a_i,a'_i\) 間の変換(6)が変換(2)の係数の式により定義された。つまり、\(x_i,x'_i\) の間の2次元線形変換(2)から、\(a_i,a'_i\) の間の3次元線形変換への対応が定義されたのである。

ここで三つある \(a_i\) を変数とする式である \(a_0a_2-a_1^2\) を考える。そうすると、(2)の線形変換の係数 \(\alpha_{ij}\) の行列式を \(\delta\) とすると、(6)の変換の式を満たす、すべての \(a_0,a_1,a_2,a'_0,a'_1,a'_2\in \mathbb{C}\) に対して、 \begin{equation} a'_0a'_1-{a'_1}=\delta^2(a_0a_2-a_1^2) \end{equation} が成り立つということであった。

一般化すれば、binary quadratic の一般形 \(f=a_0x_1^2+2a_1x_1x_2+a_2x_2^2\) を考え、その係数の多項式 \(\mathcal{I}(a_0,a_1,a_2)\) の変数を対応する \(a'_i\) の変数に一旦置き換え \(\mathcal{I}(a'_0,a'_1,a'_2)\) を作る。それに(6)により代入を行い元の変数 \(a_i\) と変換(2)の係数 \(\alpha_{ij}\) の式にする。この時、Boole が発見した様な特殊な多項式では、ある非負整数 \(p\) に対して、 \[ \mathcal{I}(a'_0,a'_1,a'_2)=\delta^p \mathcal{I}(a_0,a_1,a_2). \] が成り立つ事がある、という事である。これが(7)の計算で確認できたことである。

ここでは、この等式を、変数 \(a_i\) と \(\alpha_{ij}\) の多項式環の多項式の等式であるかの様に説明した。しかし、これは勿論、(2)や(6)の関係を満たす複素数 \(a_i,a'_i,\alpha_{ij}\) の全てに対して、この等式が成り立っていると考えても同じことである。実は、後のことを考えると(covariant の定義)、そちらの方が都合がよいので、そちらで考えることにしよう。

ここまで説明すれば、どの様に、binary quadratic の不変式を定義すべきかは明かだろう。それは次の様に定義される。

定義1.不変式(binary quadraticが ground form の): (1) の \(f\) を ground form と呼ぶ。ただし、係数 \(a_0,a_1,a_2\) は変数である。\(\mathcal{I}(a_0,a_1,a_2)\) が ground form の三つの係数の整式であるとする。この時、ある非負整数 \(p\) が存在して、ground form \(f\) を使って(2)から定義された(6)の関係式が成り立つ様な、すべての \(a_0,a_1,a_2,a'_0,a'_1,a'_2\in\mathbb{C}\) に対して \[ \mathcal{I}(a'_0,a'_1,a'_2)=\delta^p \mathcal{I}(a_0,a_1,a_2). \] が成り立つ時、 \(\mathcal{I}(a_0,a_1,a_2)\) を ground form \(f\) の不変式という。 ただし、\(\delta\) は、(2) の変換の係数の行列式 \(\left|\begin{smallmatrix}\alpha_{11} & \alpha_{12}\\ \alpha_{21} & \alpha_{22}\end{smallmatrix}\right|\) である。
\(\mathcal{I}(a_0,a_1,a_2)\) が \(f\) の不変式ならば、それは必ず form になり、その次数は weight \(p\) に一致することが知られている。

m変数n次の ground form の不変式も同様に定義できるが、ここでは2変数、つまり、binary でn次の ground form の場合だけ定義しておこう。そのためには、(6) の変換を一般化しなくてはならない。つまり、binary n次の ground form \[\tag{8} f=a_0x_1^n+\binom{n}{1}a_1x_1^{n-1}{x_2}+\cdots+a_nx_2^n \] に対して、binary quadratic の場合と同様に、これの \(x_1,x_2\) に(2)で代入を行い、 \[ f'=a'_0{x'}_1^n+\binom{n}{1}a'_1{x'}_1^{n-1}{x'_2}+\cdots+a'_n{x'}_2^n \]

を作り、これにより(6)と同様にして、\(a'_0,a'_1,\cdots,a'_n\) と \(a_0,a_1,\cdots,a_n\) という、それぞれ \(n+1\)個の変数の間の関係を定義する。もちろん、それも(6)と同様に、\(\alpha_{ij}\) から作られた同次式を係数とする線形変換となる。それを次の(9)とする。 \begin{equation}\tag{9} \begin{aligned} a'_0 & = g_0(a_0,a_1,\ldots,a_n),\\ a'_1 & = g_1(a_0,a_1,\ldots,a_n), \\ &\qquad\qquad\vdots\\ a'_n & = g_n(a_0,a_1,\ldots,a_n). \end{aligned} \end{equation} 実は、一次式 \(g_i\) は総和を使って explicit に書くことができる。1.1.2で説明したことに従って変数を読み替える必要はあるが、例えば[Olver1999],p.14にその式がある。しかし、そこで Olver が注意しているように、その explicit な式が不変式論を展開するために必要になることはないので、ここではこういう風に書いて置くことにする。

これで準備はできたので、binary n次の ground form の不変式を次の様に定義する。

定義3. 不変式(binary な ground form の): (8) の\(f\)を ground form と呼ぶ。ただし、係数 \(a_0,a_1,\ldots,a_n\) は変数である。\(\mathcal{I}(a_0,a_1,\ldots,a_n)\) が ground form の係数の整式であるとする。この時、ある非負整数 \(p\) が存在して、ground form \(f\) を使って(2)から定義された(9)の関係式が成り立つ様な、すべての \(a_0,a_1,\ldots,a_n,a'_0,a'_1,\ldots,a'_n\in\mathbb{C}\) に対して \[ \mathcal{I}(a'_0,a'_1,\ldots,a'_n)=\delta^p \mathcal{I}(a_0,a_1,\ldots,a_n). \] が成り立つ時、 \(\mathcal{I}(a_0,a_1,\ldots,a_n)\) を ground form \(f\) の不変式という。 ただし、\(\delta\) は、(2) の変換の係数の行列式 \(\left|\begin{smallmatrix}\alpha_{11} & \alpha_{12}\\ \alpha_{21} & \alpha_{22}\end{smallmatrix}\right|\) である。また、\(p\) を、この不変式の weight と呼ぶ。
この場合にも、不変式は必ず form になる。また、その次数は、その不変式の weight \(p\) と、ground form の次数 \(n\) により、\(2p/n\) と表すことができる。これらの事実の証明は、(2)を対角行列にすることによって行われる(例えば、[Hilbert1993]pp.20-22)。

非斉次の不変式があるとすると、それを斉次の部分に分割すると、それぞれが斉次不変式になることは自明である。このため、最初から不変式は form の一種であるとすることが多い。このWeb文書で扱うような一つの ground form の不変式が常に斉次になるかどうか、寡聞にして知らないが、少なくとも、二つの ground form の場合には、非斉次の不変式があり、それをどの様に斉次に分割すべきかは、[Grace&Young]のp.8に例で示されてる。

3変数以上の ground form に対する不変式も同様に定義されるが、同じことなので、ここでは binary の場合に留めて置く。また、直ぐ上で、既に書いた様に、ground form は実は複数あっても良いのだが、このWeb文書では複数の ground form に対する不変式の説明はしない。ただし、上の様に何度か複数の ground form の場合に何か起きるかについて言及するので、気になる人は、例えば、Hilbert[1993],p.78を見て欲しい。

ちなみに、前項 1.1.3 で紹介した[Boole1841]のpp.5-6で、Boole は3変数2次の ground form \(Q=Ax^2+By^2+Cz^2+2Dyz+2Exz+2Fxy\) の不変式 \(\theta(Q)\) を、紹介した方法と全く同じ方法で求めているが、それは次の様な式であった。 \[ \theta(Q)=(AD-BC)^2-4(B^2-AC)(C^2-BD) \]

3. Covariant

不変式 invariant は、19世紀不変式論の中心概念だったが、この時代には、もう一つ重要な概念があった。それが covariant (英) Covariant (独)である。これには適当な和訳が見つからなかったので、covariant と書くことにする。不変式論は、名前の通り、不変式 invariant を研究する理論だが、見方によっては、この covariant こそ、invariant theory の中心概念だったと言ってもよいのである。

Invaiant 不変式の定義では、簡単のために binary の場合の定義しか考えなかった。今回も、同様に binary の場合だけを示しておく。

Invariant の定義が出来ていれば、covariant の定義は簡単で、定義3 の \(\mathcal{I}(a_0,a_1,\ldots,a_n)\) を、\(x_1,x_2\) も含む整式 \(\mathcal{C}(a_0,a_1,\ldots,a_n,x_1,x_2)\) に変えるだけでよい。

定義4. Covariant (binary な ground form の):(8) の\(f\)を ground form と呼ぶ。\(\mathcal{I}(a_0,a_1,\ldots,a_n,x_1,x_2)\) が ground form の係数と(2)の変数 \(x_1,x_2\) の整式であるとする。この時、ある非負整数 \(p\) が存在して、ground form \(f\) を使って(2)から定義された(9)の関係式が成り立つ様な、すべての \(a_0,a_1,\ldots,a_n,a'_0,a'_1,\ldots,a'_n\in\mathbb{C}\)、および、(2)の関係式が成り立つ様な、すべての \(x_1,x_2,x'_1,x'_2\in\mathbb{C}\) に対して \[ \mathcal{I}(a'_0,a'_1,\ldots,a'_n,x'_1,x'_2)=\delta^p \mathcal{I}(a_0,a_1,\ldots,a_n,x_1,x_2). \] が成り立つ時、 \(\mathcal{I}(a_0,a_1,\ldots,a_n,x_1,x_2)\) を ground form \(f\) の covariant という。 ただし、\(\delta\) は、(2) の変換の係数の行列式 \(\left|\begin{smallmatrix}\alpha_{11} & \alpha_{12}\\ \alpha_{21} & \alpha_{22}\end{smallmatrix}\right|\) である。また、\(p\) を、この covariant の weight と呼ぶ。
不変式 invariant は、covariant で偶々、その式中に \(x_1,x_2\) が出現していないものであることに注意しよう。つまり、covariant は、invariant の拡張になっている。

(9)の \(g_i\) は、 \[ f(g_0(a_0,a_1,\ldots,a_n),\ldots,g_n(a_0,a_1,\ldots,a_n),x'_1,x'_2)=f(a_0,\ldots,a_n,\alpha_{11}x'_1+\alpha_{12}x'_2,\alpha_{21}x'_1+\alpha_{22}x'_2) \] で定義したが、これは \(f\) が \(f\) 自身の weight 0 の covariant であるための条件式そのものなので、ground form は、常に、その covariant になる。

Boole の不変式の発見の経緯の解説で、Boole が使った偏微分と行列式が不変式論の重要要素だと説明したが、これを如実に示しているのが、微分幾何学などに出てくる Hessian (ヘッセ行列) である。2変数関数の場合で示すと、関数 \(f\) の Hessian \(H(f)\) とは次の様な行列である。 \[ \begin{bmatrix} \frac{\partial f}{\partial^2 x_1} & \frac{\partial f}{\partial x_1\partial x_2} \\ \frac{\partial f}{\partial x_2\partial x_1} & \frac{\partial f}{\partial^2 x_2} \end{bmatrix} \] \(f\) を ground form とし、これを \(x_1,x_2\) だけの関数とみなしたときの Hessian \(H(f)\) の行列式 \(\left| H(f)\right|\) は、\(f\) の weight 2 の covariant になる。そのことを、binary 3次の ground form の場合に林が強引に代数計算だけで検証してみた際の計算のノートの画像が、これである。林は計算が苦手なので何度も計算間違いをしたので数日かかった。

これはどれ位の規模の計算になるのかと好奇心でやってみただけで、実は、偏微分の知識を使えば、こういう計算は必要ない。 (2)で \(f\) の変数変換を行った結果を \(f'\)、(2)の係数を \(T\) とすると、偏微分の chain rule により \(H(f')=A^TH(f)A\) となる(Hessian の線形変数変換の公式)。両辺の行列式を考えれば、 \(\left| H(f)\right|\) が weight 2 の covariant になることが分かる。これはn変数でも同じである。

Hessian は transvectants と呼ばれる covariant の特殊ケースと見なせる。これは Cayley が導入した、次の \(\Omega\)-operator という偏微分作用素を使って定義される。 \[ \Omega = \begin{vmatrix}\frac{\partial}{\partial x_{11}} & \frac{\partial}{\partial x_{12}} \\ \frac{\partial}{\partial x_{21}} & \frac{\partial}{\partial x_{22}}\end{vmatrix}= \frac{\partial}{\partial x_{11}\partial x_{22}}-\frac{\partial}{\partial x_{12}\partial x_{21}} \] 二つの2変数関数 \(Q(x_1,x_2),R(x_1,x_2)\) の \(r\)-order の transvectant \(T(x_1,x_2)\) は、 \[ S(x_{11},x_{12},x_{21},x_{22})=\Omega^r[Q(x_{11},x_{12})R(x_{21},x_{22})] \] とするとき \[ T(x_1,x_2)=S(x_1,x_2,x_1,x_2) \] と定義される。

ground form が二つの場合、その transvectant は、それらの covariant となる。また、\(f\) の Hessian は、\(Q,R=f\) としたときの order 2 の transvectant の二分の一倍になる。 さらには、任意の covariant を、ground form のべき乗の逆数と、transvectant の多項式の積として表すことさえできる。この様に、\(\Omega\)ーoperator を使って、covariant を作ることを \(\Omega\)-process という。

ちなみに、複数の ground form を使うと、面白いことが起きる。先に、「invariant は covariant の特殊例だ」と書いたが、複数の ground form を使うと、これの逆が成り立ち、covariant は invariant の特殊例と見なせるのである。これは、covariant の ground form に線形の新しい ground form \(b_0x_1+b_1x_2\) を追加すると、その不変式は、\(\mathcal{I}(a_0,a_1,\ldots,a_n,b_0,b_1)\) という多項式になるのだが、ground form \(b_0x_1+b_1x_2\) がベクトル \(x_1,x_2\) の covector の様に振る舞い、結局、\(\mathcal{I}(a_0,a_1,\ldots,a_n,x_1,x_2)\) という多項式を考えているかの様になるためである([Hilbert1993],p.86,Theorem A)。

また、covariant も、不変式の場合と同じ理由で、2種類の変数 \(a_i,x_i\) の双方で斉次だと前提しても一般性を失わない。この様なことから、結局、斉次だと仮定した複数 ground form の不変式だけを考える不変式論でも一般性が失われないことがわかる。Hilbert が1890年に[Hilbert1890]で、これから説明する Gordan 問題を解決したとき、本来は、covariant の問題だったのに、invariant の場合だけ解決して済ませてしまっているのは、そのためである。

4. 英国不変式論

Boole は不変式現象の発見者と言って良いと思うが、不変式論の創始者というべきは、Boole の発見に注目して、多くの論文を書き、一つの分野に育てた Arther Cayley だろう。Cayley の数学的業績は膨大で、その論文集は全13巻あり、967もの論文が収録されている。論文数が異常に多いのは、メモの様な極く短い論文が多いこともある。しかし、そういう特殊性を差し引いても、Cayley の研究の量には圧倒されるものがあり、また、内容も多彩である。例えば、curvature を計測する機器の提案などというものもある。早くから数学への愛に満ちてはいたものの、彼は最初法律家として身を立てた。おそらくは、数学は仕事でなく彼の情熱そのものだったに違いない。そういう時、人は想像を絶する力を発揮する。

Cayley は「歩く数式処理システム」と呼びたくなるような人で、兎に角、計算が好きで、この様な巨大な数式[Cayley1845,p.205,p.206]を扱うのは珍しくなかった。彼は、Boole への手紙に巨大な式の計算を行うことの喜びについて書いているという。流石に彼の計算にも誤りがあるようだが、全体的には人間技とは思えないような正確な計算だという。Cayley には、すでに引用した大部の伝記があり、また、同じ著者による彼の初期不変式研究の紹介論文もあるので、ここではこれ以上の深入りは避ける。

初期の不変式論では、\(\Omega\)-process などで新しい invariant, covariant を作っていくことが主な研究目的となり、また、低い weight と degree に対して、そのすべての invariant, covariant を求めるという問題が追及された。この問題では、特に、Cayley の盟友かつライバルと言えた、Sylvester の活躍が目立った。

しかし、Cayley が[Cayley1856]で、weight や degree を限定しなくとも、有限個の covariant で、他のすべての covarinat を、それらの多項式として書けるのではないかと予想し、その解決が不変式論の大きな目標となった。ちなみに、この時、Cayley は微分方程式の解の有限性を引き合いに出して、それと同じ現象が covariant 理論でも起きるのではないかという風に予想している。 この様に、初期の不変式論は、それが誕生した英国で発展していったが、中心地は直ぐにドイツに移ることになる。

5. ドイツ不変式論

英国で生まれた不変式論だが、それを最も発展させたのはドイツの数学者たちだったと言って良いだろう。もちろん、Hilbert の不変式論は、そのクライマックスだったと言って良いだろうが、彼以前のドイツ不変式論の最大の特徴は、symbolic method, Symbolik という研究手段が使われたことだったろう。この symbolic method は、現在から見ると非常に不思議なもので、どうして当時の数学者は、こういうもので数学を行えたのか林には理解できず不思議でならない。

幸いなことに、既に述べた様に1980年代にアメリカの combinatorics 研究者の Rota が、19世紀の計算方法を現代数学の目から見ても合理的な方法で再現する理論を構築しているので、それを使って、この方法を簡単に説明しよう。

今回も、binary の場合で説明する。Symbolic method では、任意の binary form \(f(x,y)\) を、強引に \((\alpha_1x+\alpha_2y)^n\) だと思う。そして、任意の binary form に対する計算を、この線形形式のべき乗に対する計算で置き換える。例えば、\(a_0x^2+2a_1xy+a_2y^2\) は、 \((\alpha_1x+\alpha_2y)^2\) だと考えて、その係数が \(\alpha_1^2,\alpha_1\alpha_2,\alpha_2^2\) だとして、この \(\alpha_i\) を使って計算をおこなう。もちろん、そんなことをすれば簡単に矛盾が生じる。例えば、一般の form に対して \(a_0a_2=a_1^2\) が計算できてしまう。両辺とも \(\alpha_1^2\alpha_2^2\) だからである。

そこで、これを回避するために、\(\alpha\) の代役の様な記号 \(\beta,\gamma,\ldots\) を無限個用意し、必要に応じて、\(\alpha\) を、それらで置き換えることにより、この様な矛盾した等式が導入されることを回避する。例えば、先ほどの矛盾した等式の左辺は \(\alpha_1^2\beta_2^2\) で右辺は \(\alpha_1\alpha_2\beta_1\beta_2\) と表されるために、等式は成り立たないと考えるのである。

これを[Kung&Rota1984]の notation を若干変えて説明しよう。文字 \(\alpha,\beta,\gamma,\ldots\) を無限個用意し、これとは別の文字 \(u\) も考える。そして、これらの全てに添え字 1,2 をつけて無限個の記号 \(\alpha_1,\alpha_2,\beta_1,\beta_2,\gamma_1,\gamma_2,\ldots\) と、それとは別の \(u_1,u_2\) という記号を作る。そして、これらを不定元あるいは変数とする多項式環 \(\mathbb{C}[\alpha_1,\alpha_2,\beta_1,\beta_2,\gamma_1,\gamma_2,\ldots,u_1,u_2]\) を \(\mathscr{U}\) とする。そして、この \(\mathscr{U}\) から、ground form の係数と変数の多項式環\(\mathscr{P}=\mathbb{C}[a_0,a_1,\ldots,a_n,x,y]\) への線形作用素 \(U\) を次の様に定める。 \[ \begin{aligned} &U(*_1^k*_2^{n-k})=a_k \quad(*=\alpha,\beta,\ldots;\ k\leq n)\\ &U(*_1^j*_2^k)=0\quad(*=\alpha,\beta,\ldots;\ j+k\not = n)\\ &U(u_1^k)=(-y)^k\\ &U(u_2^k)=x^k\\ &U(\alpha_1^i\alpha_2^j\beta_1^k\beta_1^l\cdots u_1^pu_2^q)=U(\alpha_1^i\alpha_2^j)U(\beta_1^k\beta_1^l)\cdots U(u_1^p)U(u_2^q) \end{aligned} \]

Kung と Rota によれば([Kung&Rota1984],p.28)、わずかこれだけのことで、19世紀の数学者たちの計算を現代的な合理性の元に再現できるという。しかし、19世紀の数学者たちが行った証明は、そうは行かず新しい証明を考える必要があったとのことである。実際、後に見るように、例えば Gordan の証明のコンセプトは、現代の数学のそれとは大きく違う様に見える。現代のスタンダードから見ると、19世紀の数学者たち、特にドイツの symbolic method を使う数学者たちの証明は、本当の証明とは言えないものだった可能性も高いのではないかと思う。

しかしながら、彼らが多くの大きな成果を挙げたのは確かである。そして、その内で特筆に値するものが、binary の場合の Paul Gordan による Cayley の予想の解決と、Alfred Clebsch による「不変式論の第一基本定理」と現在呼ばれている定理であろう。

この第一基本定理を定式化するには、まず、bracket monomial という概念を定義する。bracket monomial とは、bracket と呼ばれる次の2種類の式の積の事である。 \[ \alpha_1\beta_2-\alpha_2\beta_1\qquad \alpha_1u_2-\alpha_2u_1 \] もちろん、他の記号から作った \(\delta_1\alpha_2-\delta_2\alpha_1\) なども bracket である。これらを bracket というのは、こういう式を \([\alpha\,\beta]\) の様に書くからである。bracket monominal は、名前に反して単項式ではないが、おそらく bracket の単項式というので、この様に呼ばれているのだろう。そして、bracket polynomial とは、bracket monomial の線形結合の事である。この bracket polynominal の集合を \(BP\) と書こう。この時、第一基本定理は、次の様に定式化される。

第一基本定理: \(\mathscr{P}\) の多項式 \(\mathcal{C}\) が covariant である必要十分条件は、\(\mathcal{C}\in U(BP)\) となる事である。
つまり、symbolic method の多項式環 \(\mathscr{U}\) では、bracket polynomial が、通常の多項式環 \(\mathscr{P}\) の covariant に対応するというのである。不変式の不変性は form での同次性などと違い、形だけでは決まらない条件であるから、bracket polynomial が形だけで決まる事に注意すれば、これは非常に興味深く優れた定理であると言える。

ちなみに、19世紀の symbolic method も、Rota たちの現代版 symbolic method も使わないで、第一基本定理に当たる定理を定式化して証明することも可能であり、例えば[Olver1999]と[Sturmfels2008]で、それぞれ異なる方法で、そういう定式化と証明がなされている。

6. そして、Hilbert 不変式論へ

Hilbert の不変式論研究の解説を行うために必要な不変式論の数学的知識と歴史的知識は、ほぼ揃ったので、ここから Hilbert の不変式論の話を始めることになる。

イントロで述べた様に、このWeb文書の Hilbert 不変式論史は、従来の定説とは異なる。そこで Hilbert 不変式論の叙述では、従来、それがどう語られていたかを説明し、 それらのどこがどう間違っているのかを簡単に説明した上で、私の新説にもとづいて Hilbert の不変式論研究の歴史を語ることになる。

数学についての歴史を語る時、異なる三つの事について語る必要がある。一つは、数学の概念や理論などが、何時、どの様に成立したかという事である。もう一つは、この資料の1.1.3で行った様な、現代の概念や理論、さらには言語との相違と関係である。さらに、もう一つは、そういう歴史の過程の中で、その時代人たちが、どの様に振る舞ったのかということである。そして、この最後のものは、数学ではなく、数学者、つまり、人の話であり、これこそが、最も歴史学らしい話となる。

2章と4章で詳述する「神学騒動」と私が呼んでいる数学者間の騒動についての歴史叙述は、この第3のものの典型となり、それは主に数学者間の書簡の分析に基づいて行う。そして、第一のものは、多くの場合は、出版された論文や、その草稿、講義録、日記、覚書などの分析を通して行うものなのだが、この場合には、この書簡の分析が重要なカギとなる。これは「研究の足跡」を、若き日の Hilbert が殆ど残していないからである。Göttingen 時代には、助手や学生を使って膨大な講義録を組織的に残す様になり、それが重要な史料となるのだが、若き日の彼には、そういう術はなかった。

また、20年程前から暫くの間、林が研究していた彼の「数学ノート」(日記と呼ばれることも多い)にも、残念ながら、そういうものが殆どない。Hilbert の数学ノートブックの数学そのものについてのノートは、量としては、史料としては、それほど意味を持ちそうにない細かい数学的事実が主である(ただし、これらは数学ノートの記述時期の同定には役立つ)。

その林と共同研究者の古い研究成果を、林が纏めつつあるWEB文書へのリンクが、これである。見てもらえれば解る様に、「物理学の公理化を行え。その予行演習として幾何学の公理化を行え」という意味の記述、つまり、研究計画とか、「数学のすべての問題の真偽を決定できる方法が存在することを示せ。それが可能だという前提で進め」と言った「哲学的」な記述が、相当数存在し、これがシラバスに書いた『林が長年行ってきた「数学を中心とする社会の近代化の思想史研究」』のためには、第一級の史料となる。しかし、Hilbert 不変式論の成立に関係したものとしては、Gordan 問題解決を巡っての Gordan の態度に対する怒りを表現したものと思われるノートや、1890年の論文[Hilbert1890]に対する Kronecker, Hensel などのベルリンの数学者たちの評価に対する凄まじい怒りを書き綴ったノートなどがある程度役立つものの、肝心の数学の話は残念ながら書かれていないのである。

ということで、Hilbert 不変式論の叙述は、論文の分析に基づく数学的話と、数学者間の書簡の分析が入り混じる話となる。これは、あまり見かけないスタイルの数学史・科学史の叙述方式であるが、Hilbert 不変式論史の性格上、特に「神学事件」が比較的知られた数学史のエピソードで、それ「定説」を修正する必要があり、また、McLarty というアメリカの哲学者の定説への異論への反駁も必要なため、これが一番自然な叙述と思われるので、そういう書き方をすることになる。

ここで、東大講義が終わった後の研究で分かったことを追記しておく。上で20年程前に行っていた研究について触れているが、これを今まで発表しなかったのは、上でも書いた不思議なノート群に込めた Hilbert の意図を十分理解できなかったからである。しかし、3章で説明する新説に基づくと、これらの不思議なノーとの大半は、Gordan による有限基底定理の証明方法への批判に対するリアクションであると考えることができる。そればかりか、有名な Wir müssen wissen. Wir werden wissen. 我々は知らなくてはならない。我々は知るであろう。というモットーが代表する、Emile du Bois-Reymond の不可知論への異様とも言える強い反感、さらには1920年代のヒルベルト計画など、すべて、その発端は Gordan の 批判への反論・反感から始まっていると考えることができることが判った。これについては、3章で論じる。

1章の終