一些很基础的数论算法。
数学太弱了,写得烂,没什么办法。
本文大量参考、引用《算法导论》第31章内容。
基础概念
$d\mid a$表示$\exists k\in\mathbb{Z},a=kd$,即$d$整除$a$。称$a$为$d$的倍数。对于$d>0$,$d$为$a$的因数(也叫约数)。$d\nmid a$表示$d$不能整除$a$。
如果一个整数$a>1$只能被$1$和它自己整除,那么这个数是质数(也叫素数),否则称它为合数,$1$为基本单位,不是质数也不是合数。
对于任意$a\in\mathbb{Z},n\in\mathbb{N}^+$,存在唯一的$q,r\in\mathbb{Z}$,满足$r\in\left[0,n\right),a=qn+r$。其中$q=\left\lfloor a/n\right\rfloor$为除法的商,$r=a\bmod b$为除法的余数。$n\mid a$当且仅当$a\bmod n=0$。
根据整数模$n$的余数,可以将所有整数划分为$n$个等价类。包含整数$a$模$n$的等价类为$\left[a\right]_n=\left\{a+kn|k\in\mathbb{Z}\right\}$。所有这类等价类的集合为$\mathbb{Z}_n=\left\{\left[a\right]_n|a\in\left[0,n\right)\right\}$。一般用每个等价类的最小非负元素来代表它,即用$0$代表$\left[0\right]_n$等。
若$d$是$a$的因数且$d$是$b$的因数,则$d$是$a$与$b$的公因数。$1$是任意两个整数的公因数。
公因数的两条重要性质:
对于任意$x,y\in\mathbb{Z}$,若$d\mid a,d\mid b$,则有$d\mid\left(ax+by\right)$。
对于任意$a,b\in\mathbb{Z}$,若$a\mid b$且$b\mid a$,则有$a=\pm b$。
两个不同是为$0$的整数$a,b$的最大的公因数称为最大公因数,记作$\gcd\left(a,b\right)$。
$\gcd$的一个重要性质:对于任意不为$0$的整数$a,b$,$\gcd\left(a,b\right)$是$a$与$b$的线性组合集$\left\{ax+by|x,y\in\mathbb{Z}\right\}$中的最小正元素。
简单证明:
设$s$为$a$与$b$的线性组合集中的最小正元素,且对于某个$x,y\in\mathbb{Z}$,有$s=ax+by$。设$q=\left\lfloor a/s\right\rfloor$。
显然有$a\bmod s=a-qs=a\left(1-qx\right)+b\left(-qy\right)$。所以$a\bmod s$也是$a$与$b$的一个线性组合。由于$s$是这个线性组合集中的最小整数,且$a\bmod s\in\left[0,s\right)$,所以$a\bmod s=0$,即有$s\mid a$。类似地,有$s\mid b$。所以$s$是$a,b$的公因数,$\gcd\left(a,b\right)\geq s$。
因为$\gcd\left(a,b\right)\mid a,\gcd\left(a,b\right)\mid b,s=ax+by$,由上面提到的公因数的性质可知$\gcd\left(a,b\right)\mid s$。又因为$s>0$,所以$\gcd\left(a,b\right)\leq s$。
结合起来,可得$\gcd\left(a,b\right)=s$。
下面是几个简单的推论。
对于任意$a,b\in\mathbb{Z}$,若$d\mid a$且$d\mid b$,则有$d\mid\gcd\left(a,b\right)$。
对于任意$a,b\in\mathbb{Z},n\in\mathbb{N}$,有$\gcd\left(an,bn\right)=n\gcd\left(a,b\right)$。
对于任意$a,b,n\in\mathbb{N}^+$,若$n\mid ab$且$\gcd\left(a,n\right)=1$,有$n\mid b$。
对于任意$a,b\in\mathbb{Z}$,若有$\gcd\left(a,b\right)=1$,则称$a,b$为互质数。若两个整数分别与一个整数$p$互质,则它们的积与$p$互质。
对于一组整数$n_1,n_2,...,n_k$,若有$\gcd\left(n_i,n_j\right)=1\left(i\neq j\right)$,则称他们两两互质。
关于质数整除性的一个重要事实:若对于任意质数$p$和任意整数$a,b$,有$p\mid ab$,则$p\mid a$与$p\mid b$这两者至少有一个成立。
唯一分解定理:合数$a$仅能以唯一一种方式写成如下形式:$$a=p_1^{e_1}p_2^{e_2}...p_r^{e_r}$$
其中$p_i$为质数,$p_1<p_2<...<p_r$,且$e_i\in\mathbb{N}^+$。
最大公因数与欧几里得算法
考虑如何计算$\gcd\left(a,b\right)$。
直接分解质因数的话效率显然是不对的。下面直接给出代码欧几里得算法的代码。
这份代码的正确性基于这个等式$\gcd\left(a,b\right)=\gcd\left(b,a\bmod b\right)$。
下面给出简单证明。
设$d=\gcd\left(a,b\right),d'=\gcd\left(b,a\bmod b\right)$。
显然有$d\mid b$。由于$a\bmod b$是$a,b$的一个线性组合($a\bmod b=a-\left\lfloor a/b\right\rfloor b$),所以有$d\mid a\bmod b$。综合一下,根据前面的一个推论,有$d\mid d'$。
用类似的方法,易证$d'\mid d$。
最终得到$d=d'$。
欧几里得算法的运行时间与斐波那契数列有关。对于任意整数$k\geq 1$,若$a>b\geq 1$且$b<F_{k+1}$,则用欧几里得算法计算$\gcd\left(a,b\right)$的递归调用次数少于$k$次。其中$F_n$表示斐波那契数列的第$n$项。
可以证明递归调用的次数为$\mathcal{O}\left(\log_2 b\right)$。
复杂度的证明略去(因为我不会)。
下面给出欧几里得算法的扩展形式。
前面证明过$\gcd\left(a,b\right)$是$a,b$的线性组合集中的最小正元素。这份代码不但计算了$\gcd\left(a,b\right)$,也计算了满足$\gcd\left(a,b\right)=ax+by$的整数$x,y$。
下面给出算法正确性的证明。
设$x',y'$为满足$\gcd\left(b,a\bmod b\right)=bx'+\left(a\bmod b\right)y'$的整数。
由于$\gcd\left(a,b\right)=\gcd\left(b,a\bmod b\right)$,所以有$$\gcd\left(a,b\right)=bx'+\left(a\bmod b\right)y'$$$$=bx'+\left(a-\left\lfloor a/b\right\rfloor b\right)y'$$$$=ay'+b\left(x'-\left\lfloor a/b\right\rfloor y'\right)$$
所以取$x=y',y=x'-\left\lfloor a/b\right\rfloor y'$是正确的。
模运算相关
一般情况下,可以将模运算与通常的整数运算一样看待。在执行模$n$运算时,结果值$x$,用集合$\left\{0,1,...,n-1\right\}$中在模$n$的意义下与$x$等价的元素替代。即用$x\bmod n$替代$x$。对于加法、减法和乘法运算,用这样的模型就够了。
下面给出使用群论结构来描述的模运算模型。
群$\left(S,\oplus\right)$是一个集合$S$和定义在$S$上的二元运算$\oplus$(有时$\oplus$在上下文中显然,就可以只用$S$来表示一个群),该运算满足:
- 封闭性:$\forall a,b\in S,\ a\oplus b\in S$;
- 单位元:$\exists e\in S,\ \forall a\in S,e\oplus a=a\oplus e=a$,$e$称为群的单位元;
- 结合律:$\forall a,b,c\in S,\ \left(a\oplus b\right)\oplus c=a\oplus\left(b\oplus c\right)$;
- 逆元:$\forall a\in S,\ \exists!\ b\in S,a\oplus b=b\oplus a=e$,$b$称为$a$的逆元。
若群$\left(S,\oplus\right)$满足交换律,即$\forall a,b\in S,\ a\oplus b=b\oplus a$,则它是一个交换群。若群$\left(S,\oplus\right)$满足$\left|S\right|<\infty$,则它是一个有限群。
通过重新定义整数的加法和乘法运算,可以得到$\mathbb{Z}_n$上的对应运算$+_n,\large\cdot_n$。
$$\left[a\right]_n+_n\left[b\right]_n=\left[a+b\right]_n$$$$\left[a\right]_n\large\cdot_n\left[b\right]_n=\left[ab\right]_n$$
使用新定义的$+_n$,定义模$n$加法群$\left(\mathbb{Z}_n,+_n\right)$,它的规模为$\left|\mathbb{Z}_n\right|$,单位元为$0$,元素$a$的逆元为$-a$。易证该系统是一个有限交换群,证明这里略去。
现在考虑乘法。现在不能使用$\mathbb{Z}_n$了,否则部分元素将没有逆元。定义模$n$乘法群$\left(\mathbb{Z}_n^*,\large\cdot_n\right)$,其中$\mathbb{Z}_n^*=\left\{\left[a\right]_n\in\mathbb{Z}_n|\gcd\left(a,n\right)=1\right\}$,它的单位元为$1$。
关于该系统是有限交换群的证明,其他部分略去,这里仅考虑逆元的存在性证明(唯一性的证明在遥远的下面)。
设$ax+ny=\gcd\left(a,n\right)=1$,那么,等价地,有$ax\equiv 1\pmod n$,所以$x$是$a$的逆元。$ax+ny=1$也同时说明了$x$和$n$的最小正线性组合是$1$,所以$\gcd\left(x,n\right)=1$,所以$x\in\mathbb{Z}_n^*$。
$\mathbb{Z}_n^*$的规模可以用$\phi\left(n\right)$。这个函数称为欧拉$phi$函数,表示与$n$互质的数的个数。
易证$\phi\left(n\right)=n\prod_\limits{p\ is\ prime,p\mid n}\left(1-\frac{1}{p}\right)$。
若$\left(S,\oplus\right)$和$\left(S',\oplus\right)$都是群,且$S'\subseteq\S$,则后者是前者的子群。
子群的另一个判断方法是:若$\left(S,\oplus\right)$是一个有限群,$S'\neq S,S'\subseteq S$,$\forall a,b\in S',a\oplus b\in S'$,则$\left(S',\oplus\right)$是$\left(S,\oplus\right)$的子群。
拉格朗日定理给出了子群规模的一个限制:若$\left(S',\oplus\right)$是$\left(S,\oplus\right)$的一个子群,则$\left|S'\right|$是$\left|S\right|$的因数。
考虑一个生成子群的方法。选择一个元素$a\in S$,根据所有用群上定义的运算取出所有能用$a$生成的元素。
定义$a^{\left(k\right)}=\mathop{\oplus}_\limits{i=1}^\limits{k}=a\oplus a\oplus\cdots\oplus a\left(共k个a\right)$。
那么$a$生成的子群用$\left(\left<a\right>,\oplus\right)$或$\left<a\right>$表示,其中$\left<a\right>=\left\{a^{\left(k\right)}|k\in\mathbb{N}^+\right\}$。$a$称为$\left<a\right>$的生成元。
至于它为什么一定是$S$的子群。因为$\oplus$满足结合律,$a^{\left(i\right)}\oplus a^{\left(j\right)}=a^{\left(i+j\right)}$,所以$\left<a\right>$是封闭的,用前面提到的子群的第二个判断方法即可。
定义在群$S$中的元素$a$的阶为满足$a^{\left(k\right)}=e$的最小整数$k$,记作$ord\left(a\right)$。
显然有$\forall a\in S,\ \left|\left<a\right>\right|=ord\left(a\right)$。
一个推论:$\left|\left<a\right>\right|\mid\left|S\right|\Rightarrow a^{\left(\left|S\right|\right)}=e$。
使用扩展欧几里得算法求解线性同余方程
已知$a,b,n$,求解方程$ax\equiv b\pmod n$。
显然,当且仅当$b\bmod n\in\left<a\right>$时,该方程有解。
设$d=\gcd\left(a,n\right)$。
因为$d$是$a$与$n$的一个线性组合,所以$d\in\left<a\right>$。所以有$\left<d\right>\subseteq\left<a\right>$。
同时,对于任意元素$m\in\left<a\right>$,显然$m$是$a$和$n$的一个线性组合。再由$d\mid a,d\mid n$,可以得到$d\mid m$,所以有$m\in\left<d\right>$。等价地,$\left<a\right>\subseteq\left<d\right>$。
综合一下,可以得到当且仅当$d\mid b$时,该方程有解。
假设对于$x',y'\in\mathbb{Z}$,有$ax'+ny'=d$(可以使用扩展欧几里得计算),那么显然有$ax'\left(b/d\right)+ny'\left(b/d\right)=b$(注意因为$b\mid d$,所以$b/d\in\mathbb{Z}$),即$ax'\left(b/d\right)=b\pmod n$。
这样就可以得到方程的一个解。下面证明方程共有$d$个解,它们依次相差$n/d$。
$a\left(x+in/d\right)=ax+ain/d\equiv ax\pmod n$(注意$d\mid a$)
对此有一个有用的推论。
若$\gcd\left(a,n\right)=1$,则方程$ax\equiv b\pmod n$有唯一解,否则无解。(这就证明了$\mathbb{Z}_n^*$中的元素的逆元的唯一性,并说明了该群仅包括与$n$互质的数的原因)
由于这个推论,当$a$与$n$互质时可以用$a^{-1}\bmod n$来表示$a$对模$n$的乘法逆元。
下面给出求解模线性方程的最小正整数解的代码。
同时也可以用这份代码来求乘法逆元,即求解$ax\equiv 1\pmod n$。
中国剩余定理与线性同余方程组
中国剩余定理的内容很简单。
对于$n=n_1n_2\cdots n_k$,其中$n_i$两两互质,有$a\in\mathbb{Z}_n$与$\left(a_1,a_2,\cdots,a_k\right)$(其中$a_i\in\mathbb{Z}_{n_i}$)一一对应。
由$a$求出对应的一组$a_i$很简单,只要分别取模就可以了。
考虑如何由一组$a_i$求$a$。
令$m_i=n/n_i,c_i=m_i\times\left(m_i^{-1}\bmod n_i\right)$。
则有$a=\sum_{i=1}^n a_ic_i$。
显然在模$n_i$时,$c_i=1$(因为逆元),$c_j=0\left(j\neq i\right)$(因为$n_i\mid m_j$)。所以这么做是对的。
中国剩余定理的一个最简单的应用就是求解线性同余方程组。这个很简单,用扩展欧几里得算法分别求解,再用中国剩余定理合并即可。
另一个常见的用法是对于一些要对合数取模的问题,先把模数分解,分别求解,最后再合并。
幂相关与BSGS算法
欧拉定理:$\forall n>1,a\in\mathbb{Z}_n^*,\ a^{\phi\left(n\right)}\equiv 1\pmod n$。
之前已经提到$a^{\left(\left|S\right|\right)}=e$。那么欧拉定理其实就是它在$\mathbb{Z}_n^*$上的特例。
费马小定理:对于质数$n$,$a^{n-1}\equiv 1\pmod n$。
显然这是欧拉定理的一个特例,因为对于质数$n$,有$\phi\left(n\right)=n-1$。
若对于$g\in\mathbb{Z}_n^*$,有$ord\left(g\right)=\mathbb{Z}_n^*$,则$\mathbb{Z}_n^*$中的每个元素都是$g$的一个幂,$g$称为$\mathbb{Z}_n^*$的生成元或原根。如果$\mathbb{Z}_n^*$包含一个原根,就称它是循环的。
对于$\mathbb{Z}_n^*$的原根$g$,以及$a\in\mathbb{Z}_n^*$,存在一个$x$,使得$g^x\equiv a\pmod n$。$x$称为对模$n$到基$g$上的一个离散对数,记作$x=ind_{n,g}\left(a\right)$。
显然,根据欧拉定理,对于$\mathbb{Z}_n^*$的原根$g$,当且仅当$x\equiv y\pmod\phi\left(n\right)$时,有$g^x\equiv g^y\pmod n$。
有一个与离散对数很类似的问题:给出整数$a,b$与质数$n$,求最小的$x$,满足$a^x\equiv b\pmod n$。
设$x=im+j\left(i,j,m\in\mathbb{N}^+,j<i\right)$,那么原式变形为$a^{im}a^j\equiv b\pmod n$。
现在枚举$i$,即可用扩展欧几里得解出$a^j$。只须在枚举$i$之前枚举$j$,预处理出$a^j$的值,并放进哈希表(或其他较快的字典实现)里,就可以在枚举$i$时求出对应的$j$值(如果存在的话)。
由于$n$是质数,根据费马小定理,有$a^x\equiv a^{x\bmod n-1}\pmod n$,所以要求的$x$在$0$到$n-2$中。显然取$m=\left\lceil\sqrt {n-2}\right\rceil$时,$i,j$都只须枚举到$\mathcal{O}\left(\sqrt n\right)$,复杂度最优,也为$\mathcal{O}\left(\sqrt n\right)$。
以上过程就是BSGS算法。
现在考虑$n$是合数的情况,若$\gcd\left(a,n\right)=1$,就问题不大,$a$的幂显然也和$n$互质,直接把$\phi\left(n\right)$求出来,或者仍旧用$n-1$(因为$\phi\left(n\right)<=n-1$)都可以,直接跑BSGS。
但如果$\gcd\left(a,n\right)>1$,那就要麻烦一些。显然对于任意整数$a,b,d,b$,$a\equiv b\pmod n$等价于$ad\equiv bd\pmod {nd}$。考虑从$a^x$中分出$c$个$a$,用它们来和$b,n$消去公因数,这样设$d=\gcd\left(a^c,n\right)$,问题转化为$\left(a^c/d\right)a^{x-c}=b/d\pmod{n/d}$,就可以用BSGS求解了。
因为$n$的因数不超过$\sqrt n$个,所以效率仍旧是$\mathcal{O}\left(\sqrt n\right)$的。
注意解可能会小于$c$,所以要在消去公因数时顺便判断一下。
这里给出代码。
质数测试与整数的因式分解
最朴素的判断质数的方法是试除,但这样做的效率显然不够好。
对于整数$a,n$,若$n$是质数,那么根据费马小定理,$a^{n-1}\equiv 1\pmod n$。
那么很自然地会有这样一个想法:对于合数$n$,任意整数$a$都不满足上面这个等式。
根据这个,可以构造出一个判断素数的方法,即用一个固定的$a$去判断是否满足上面这个等式。
但这是不正确的。对于整数$a$,合数$n$,若满足$a^{n-1}\equiv 1\pmod n$,则$n$称为基为$a$的伪质数。例如$341,561$都是基为$2$的伪质数。在前$10000$个正整数中,基为$2$的伪质数有$22$个。
这样的出错率,在一般的应用中问题不大,但在OI中显然是不行的。
Miller Rabin算法基于这个思想,并对它做了改进。
有这样一个结论:对于奇质数$n$,正整数$e$,方程$x^2\equiv 1\pmod {n^e}$有且仅有两个解,即$x=\pm 1$。
也就是说如果这个等式在模$n$时不成立,那么它一定是合数。
所以可以在计算$a^{n-1}$时,用类似于快速幂的方法,顺便取一些$x$判断这个等式是否成立,以此来降低出错率。
同时,再考虑一个简单的优化,即随机多取几个$a$进行判断。
下面给出Miller Rabin算法的代码。
对于较小的$n$,可以认为它的正确性是有保证的。在OI中,往往不采用随机值,而是测试一组固定的$a$值。
之前提到了可以用试除的方法判断质数,有一个同样可以用试除来做的问题,即整数的因式分解。那么来考虑它有没有什么更高效的算法。
$rho$是一个效率较高,容易理解,实现又简单的用来解决这个问题的算法。尽管它不是现在最快的算法,但基本上已经够用了。
这里就不介绍具体内容了,我在网上找到了一篇很不错的相关介绍,可以去看一看。
英文版:
https://www.cs.colorado.edu/~srirams/courses/csci2824-spr14/pollardsRho.html
例题的话因为这篇太长了,就写在另外一篇里了。