sqlserver算法,SQL算法

sqlserver全文索引的原理

建立全文索引中有两项非常重要，一个是如何对文本进行分词，一是建立索引的数据结构。分词的方法基本上是二元分词法、最大匹配法和统计方法。索引的数据结构基本上采用倒排索引的结构。

创新互联拥有网站维护技术和项目管理团队，建立的售前、实施和售后服务体系，为客户提供定制化的成都网站设计、网站建设、外贸网站建设、网站维护、成都多线机房解决方案。为客户网站安全和日常运维提供整体管家式外包优质服务。我们的网站维护服务覆盖集团企业、上市公司、外企网站、购物商城网站建设、政府网站等各类型客户群体，为全球成百上千家企业提供全方位网站维护、服务器维护解决方案。

分词的好坏关系到查询的准确程度和生成的索引的大小。在中文分词发展中，早期经常使用分词方式是二元分词法，该方法的基本原理是将包含中文的句子进行二元分割，不考虑单词含义，只对二元单词进行索引。因此该方法所分出的单词数量较多，从而产生的索引数量巨大，查询中会将无用的数据检索出来，好处是算法简单不会漏掉检索的数据。之后又发展出最大匹配分词方法，该方法又分为正向最大分词和逆向最大分词。其原理和查字典类似，对常用单词生成一个词典，分析句子的过程中最大的匹配字典中的单词，从而将句子拆分为有意义的单词链。最大匹配法中正向分词方法对偏正式词语的分辨容易产生错误，比如“首饰和服装”会将“和服”作为单词分出。达梦数据库采用的是改进的逆向最大分词方法，该分词方法较正向正确率有所提高。最为复杂的是通过统计方式进行分词的方法。该方法采用隐式马尔科夫链，也就是后一个单词出现的概率依靠于前一个单词出现的概率，最后统计所有单词出现的概率的最大为分词的依据。这个方法对新名词和地名的识别要远远高于最大匹配法，准确度随着取样文本的数量的增大而提高。

二元分词方法和统计方法是不依赖于词典的，而最大匹配法分词方法是依赖于词典的，词典的内容决定分词结构的好坏。

全文检索的索引被称为倒排索引，之所以成为倒排索引，是因为将每一个单词作为索引项，根据该索引项查找包含该单词的文本。因此，索引都是单词和唯一记录文本的标示是一对多的关系。将索引单词排序，根据排序后的单词定位包含该单词的文本。

步骤1）读取一整条句子到变量str中，转到步骤2

步骤2）从句子的尾端读取1个字到变量word中，转到步骤3

步骤3）在字典查找word中保存的单词。如果存在则保存word，转到步骤4，否则转到步骤5）

步骤4）如果是字典中最大单词或者超过最大单词数（认定为新词），从句尾去掉该单词，返回步骤2

步骤5）读取前一个字到word中，构成新单词，转到步骤3）

词库的内存数据结构和词库中单词的匹配算法

内存中单词采用层次结构保存

假设字典中有如下的单词：中国中华民国国家人民民主

在内存中按照如下方式按层排列，其中每一个方块代表一个字，箭头所指向为该单词的前一个字

在sqlserver数据库中如何将unicode编码的字符转换为中文?求高手,求算法

1、先把数据库数据倒出来(导成.txt格式的)，用软件转成unicode格式。

2、把数据库转成unicode格式。

3、把数据倒回。

说明：为了安全起见，在操作过程中一定要注意备份操作。

SqlServer

SQL Server是由Microsoft开发和推广的关系数据库管理系统（DBMS），它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同开发的，并于1988年推出了第一个OS/2版本。

SQL Server 关系数据库简介：

SQL Server是由Microsoft开发和推广的关系数据库管理系统（DBMS）,它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同开发的，并于1988年推出了第一个OS/2版本。 SQL Server近年来不断更新版本，1996年，Microsoft 推出了SQL Server 6.5版本；1998年，SQL Server 7.0版本和用户见面；SQL Server 2000是Microsoft公司于2000年推出的最新版本。

SqlServer是如何管理，分配存储空间的呢

Sql Server 区管理(GAM,SGAM)

大家都知道Sql Server 中数据文件存储的最小单位是页面(Page),但实际SQLSERVE并不是以页面为单位给数据分配空间的，Sql Server默认的存储分配单位是盘区(Extend)。这样做的主要原因是为了避免频繁的读写IO，提升性能。在表或其它对象分配存储空间，不是直接分配一个8K的页面，而是以一个盘区(Extend)为存储分配单位，一个盘区为8个页面(Size = 8＊8K＝64K)。

这样，对区得操作就会非常频繁，也要求Sql Server有自己的一套系统管理着数量众多的区。其中最突出的出一个问题，那就是在存储那些只有少量数据，不足8K的对象，如果也是分配给一个盘区，就会存在存储空间上的浪费，降低了空间分配效率。

为解决上述问题，SQLSERVER提供了一种解决方案，定义了两种盘区类型,统一盘区和混合盘区。

全局分配映射表 (GAM) ：统一盘区，GAM 页记录已分配的区。每个 GAM 包含 64,000 个区，相当于近 4 GB 的数据。GAM 用一个位来表示所涵盖区间内的每个区的状态。如果位为 1，则区可用；如果位为 0，则区已分配。

共享全局分配映射表 (SGAM) ：由多个对象共同拥有该盘区，SGAM 页记录当前用作混合区且至少有一个未使用的页的区。每个 SGAM 包含 64,000 个区，相当于近 4 GB 的数据。SGAM 用一个位来表示所涵盖区间内的每个区的状态。如果位为 1，则区正用作混合区且有可用页。如果位为 0，则区未用作混合区，或者虽然用作混合区但其所有页均在使用中。

在实际为对象分配存储盘区时，为了提高空间利用率，默认的情况下，如果一个对象一开始大小小于8个页面，就尽量放在混合盘区中，如果该对象大小增加到8个页面后，SQLSERVER会为这个对象重新分配一个统一盘区。

据区当前的使用情况，GAM 和 SGAM 中每个区具有以下位模式：

这将简化区管理算法。若要分配统一区，数据库引擎将在 GAM 中搜索为 1 的位，并将其设置为 0。若要查找具有可用页的混合区，数据库引擎将在 SGAM 中搜索为 1 的位。若要分配混合区，数据库引擎将在 GAM 中搜索为 1 的位，将其设置为 0，然后将 SGAM 中对应的位设置为 1。若要释放区，数据库引擎确保将 GAM 位设置为 1，将 SGAM 位设置为 0。实际上，数据库引擎内部使用的算法比本主题中介绍的更为复杂，因为数据库引擎在数据库中均匀分布数据。但是，由于无需管理区分配信息链，因此即使是实际算法也会被简化。

管理Sql Server可用空间

首先摘录段 MSDN 的一段官方解释：

页可用空间 (PFS) 页记录每页的分配状态，是否已分配单个页以及每页的可用空间量。PFS 对每页都有一个字节，记录该页是否已分配。如果已分配，则记录该页是为空、已满 1% 到 50%、已满 51% 到 80%、已满 81% 到 95% 还是已满 96% 到 100%。

将区分配给对象后，数据库引擎将使用 PFS 页来记录区中的哪些页已分配或哪些页可用。数据库引擎必须分配新页时，将使用此信息。保留的页中的可用空间量仅用于堆和 Text/Image 页。数据库引擎必须找到一个具有可用空间的页来保存新插入的行时，使用此信息。索引不要求跟踪页的可用空间，因为插入新行的点是由索引键值设置的。

在数据文件中，PFS 页是文件头页之后的第一页（页码为 1）。接着是 GAM 页（页码为 2），然后是 SGAM 页（页码为 3）。第一个 PFS 页之后是一个大小大约为 8,000 页的 PFS 页。在第 2 页的第一个 GAM 页之后还有另一个 GAM 页（包含 64,000 个区），在第 3 页的第一个 SGAM 页之后也有另一个 SGAM 页（包含 64,000 个区）。下图显示了数据库引擎用来分配和管理区的页顺序。

看过之后，让人一头雾水，真是不知所云，真佩服这些 MSDN 是如何翻译的，看来中文 MSDN 太不靠谱，最后没办法，只能google了

其实上面说的意思就是：Sql Server 管理可用空间的方法是，查找每个每个页面是否使用，以及使用情况情况。这时就需要一个页面来记录各个页面的使用情况了，这就是 PFS 页。

PFS(Page Free Space)，也叫页面自由空间，该页面用来跟踪一个文件中每一个特定的页面的利用率情况。一个文件中第二个页面(页码1)就是PFS页面，该页面的每个字节都记录了相应页面的分配情况、页面类型、是否IAM页、是否包含删除记录、以及空间利用率信息;PFS能够管理和跟踪8088个页面的使用情况，即接近64M的空间，以后每8088个页面将再出现一次。

让我们首先了解一下PFS的页面管理字节的构造，管理单位为字节，每字节管理一个页面。

第0个bit为保留字节，始终为0

第1个bit表示该页面是否已分配，我们知道GAM页用来管理区是否已分配，但一个区包含8个页面，所以用该bit用来准确定位该区的某个页面是否已分配出去了。

第2个bit表示该页面是否混合分区的一个页面。

第3个bit表示该页面是否是一个IAM(索引分配映射)页面。

第4个bit表示该页面中是否包含幻影或已删除记录，这有助于SQL Server定期清理幻影或已删除记录。

第5~7个页面表示该页面的空间使用率情况。

SQLserver id直接的算法

---算法:记录个位数2的数据之间的间距 create by youhaoxinqin 2014-7-8 10:50 update by youhaoxinqin 2014-7-8 13:44

create table demo(

SSCID int identity(1,1),

SSCISSUE nvarchar(200),

SSCNO int

)

--初始数据

insert into demo(SSCISSUE,SSCNO) values('270070401-001',36642)

insert into demo(SSCISSUE,SSCNO) values('270070401-002',12738)

insert into demo(SSCISSUE,SSCNO) values('270070401-003',93873)

insert into demo(SSCISSUE,SSCNO) values('270070401-004',32579)

insert into demo(SSCISSUE,SSCNO) values('270070401-005',93914)

insert into demo(SSCISSUE,SSCNO) values('270070401-006',82309)

insert into demo(SSCISSUE,SSCNO) values('270070401-007',58517)

insert into demo(SSCISSUE,SSCNO) values('270070401-008',98172)

insert into demo(SSCISSUE,SSCNO) values('270070401-009',90320)

insert into demo(SSCISSUE,SSCNO) values('270070401-010',35304)

insert into demo(SSCISSUE,SSCNO) values('270070401-011',96748)

insert into demo(SSCISSUE,SSCNO) values('270070401-012',30941)

insert into demo(SSCISSUE,SSCNO) values('270070401-013',36642)

insert into demo(SSCISSUE,SSCNO) values('270070401-014',12738)

insert into demo(SSCISSUE,SSCNO) values('270070401-015',93872)

insert into demo(SSCISSUE,SSCNO) values('270070401-017',32579)

insert into demo(SSCISSUE,SSCNO) values('270070401-018',93912)

insert into demo(SSCISSUE,SSCNO) values('270070401-019',82302)

insert into demo(SSCISSUE,SSCNO) values('270070401-020',58522)

insert into demo(SSCISSUE,SSCNO) values('270070401-021',98172)

insert into demo(SSCISSUE,SSCNO) values('270070401-022',90320)

insert into demo(SSCISSUE,SSCNO) values('270070401-023',35304)

insert into demo(SSCISSUE,SSCNO) values('270070401-024',96748)

insert into demo(SSCISSUE,SSCNO) values('270070401-025',30922)

--检索数据

select * from demo where SSCNO like'%2'

--创建全局临时表

create table ##remmber_id_no(

remmberkey int identity(1,1),

id int ,

no int

)

--创建全局临时表

create table ##remmber_id_no2(

remmberkey int identity(1,1),

id int ,

no int

)

--创建偏移数据

insert into ##remmber_id_no2(id,no) values(0,0)

--将算法数据存入两个全局临时表

declare demo_cursor cursor for select sscid,sscno from demo

open demo_cursor

declare @id int

declare @no int

declare @count int

set @count=0

fetch next from demo_cursor into @id,@no

while @@FETCH_STATUS=0

begin

select @count=COUNT(*) from demo where SSCID=@id and SSCNO like'%2'

if(@count0)

begin

insert into ##remmber_id_no(id,no) values(@id,@no)

insert into ##remmber_id_no2(id,no) values(@id,@no)

end

fetch next from demo_cursor into @id,@no

end

close demo_cursor

deallocate demo_cursor

--得出id距离

select (t.id-t2.id) as ID距离 from

(select * from ##remmber_id_no where remmberkey not in(select top 1 remmberkey from ##remmber_id_no )) as t,

(select * from ##remmber_id_no2 where remmberkey not in(select top 1 remmberkey from ##remmber_id_no2 )) as t2

where t.remmberkey=t2.remmberkey

drop table ##remmber_id_no

drop table ##remmber_id_no2

sqlserver递归算法

With T

(

Select * From TB Where newNo=103

Union All

Select TB.* From TB Inner Join T on TB.newNo=T.oldNo

)

Select * From T

SQL的几种分页算法

利用SQL语句分页要看你用的什么数据库。

Oracle数据库可以使用ROWNUM或row_number()，例如：Select * from (select ROWNUM rn, t.* from table t) where rn between 11 and 20;

Select * from (select row_number() over (ORDER BY col1) rn, t.* from table t) where rn between 11 and 20;

SQLServer数据库可以用Top或者row_number()函数，道理同上。

利用SQL分页有局限性，就是针对不同的数据库有不同的写法，所以通常会在应用程序里面做分页通用性比较强。但是对于数据量非常庞大的应用来说，还是用SQL分页比较适合。

当前文章：sqlserver算法,SQL算法
浏览路径：http://azwzsj.com/article/phjipg.html