SLR 分析表构建算法详解及代码实现
SLR 分析表构建算法详解及代码实现
SLR 分析表是语法分析中的一种重要数据结构,它用于指导语法分析器识别输入字符串是否符合文法规则。本文将详细介绍 SLR 分析表构建算法的原理,并提供相应的 C# 代码实现。
一、SLR 分析表构建算法原理
SLR 分析表构建算法主要分为以下几个步骤:
-
构建 DFA 状态机: 首先,需要根据文法构建 DFA 状态机,每个状态对应一个项目集。
-
项目集: 项目集包含了所有可能的产生式的部分匹配情况。每个项目对应一个产生式,并用一个点号 '.' 来标记匹配到当前位置。
-
项目集的闭包: 闭包是指对项目集进行扩展,将所有可能出现的项目加入到项目集中。具体而言,需要考虑以下两种情况:
- 移进项目: 如果项目中存在点号'.' 未到达产生式右边的末尾,则可以移进下一个符号。
- 归约项目: 如果项目中点号'.' 已经到达产生式右边的末尾,则需要进行归约操作。
-
项目集的转移关系: 根据项目集之间的转移关系构建 DFA 状态机。
-
构建 SLR 分析表: 根据 DFA 状态机和项目集,生成 SLR 分析表。分析表中每个单元格表示对应状态和输入符号的操作。操作类型主要包括以下几种:
- 移进 (S): 将输入符号移进到堆栈中。
- 归约 (R): 根据产生式规则进行归约操作。
- 接受 (A): 识别到输入字符串的结尾。
- 错误 (E): 输入字符串与文法规则不匹配。
二、C# 代码实现
class SLR
{
// 产生式结点类
public class SLRNode
{
public string Left;
public string Right;
public SLRNode(string Left, string Right)
{
this.Left = Left;
this.Right = Right;
}
}
// 项目集类
public class SLRitemsets
{
public List<int> Container = new List<int>(100);
// 记录项目在项目集合中的序号
}
// DFA 结点
public struct DFA
{
public int from;
public char symbol;
public int to;
public DFA(int from, char symbol, int to)
{
this.from = from;
this.symbol = symbol;
this.to = to;
}
}
// 分析表 结点
public class Table
{
public bool error; // 是否为 ERROR
public char type; // 结点类型
public int id; // 数值
public Table()
{
this.error = true;
}
public Table(char type, int id)
{
this.type = type;
this.id = id;
this.error = false;
}
}
public DFA[] dfa = new DFA[100];
public int Pindex = 0; // dfa 数组指针
public Table[][] SLRAna; // 分析表
public List<SLRNode> SLRproNum = new List<SLRNode>(50); // 产生式 列表
public List<SLRNode> SLRobjNum = new List<SLRNode>(50); // 项目 列表
public List<SLRitemsets> proitemset = new List<SLRitemsets>(100); // 项目集合
public List<int> Gy_obj = new List<int>(50); // 归约项目序号集合
public List<int> Gy_itemset = new List<int>(50); // 含有归约项目的集合的序号 的集合
public List<char> Nchar = new List<char>(50); // 非终结符集合
public List<char> Echar = new List<char>(50); // 终结符集合
public void Buildprod(string str)
{
SLRNode SLr;
int i = 0;
string left = '';
string right = '';
left += 'S'';
right += str[0];
SLr = new SLRNode(left, right); // 拓广文法开始
SLRproNum.Add(SLr);
while (i < str.Length)
{
left = right = ''; // 还原
int j = i;
while (i < str.Length && str[i] != '\r' && str[i] != '\n') // 换行符 '\r\n'
{
if (str[i] == ' ')
{
i++;
continue;
}
if (str[i] == '|') // 遇到 '|' 可构造一条产生式
{
SLr = new SLRNode(left, right);
SLRproNum.Add(SLr);
right = ''; // 产生式左边相同 右边重新积累
i++; // 跳过 '|'
continue;
}
if ((i - j) == 0)
{
if (!exist(Nchar, str[i])) // 如果非终结符集合中不存在 str[i], 加入 Nchar 产生式左边 只有非终结符 不必判断终结符
Nchar.Add(str[i]);
left += str[i++];
}
else if (i - j <= 2)
i++;
else
{
if (isFinalsymbol(str[i]) && !exist(Nchar, str[i])) // 如果非终结符集合中不存在 str[i], 加入 Nchar isfinalsymbol 非终结符返回 T 终结符返回 F
Nchar.Add(str[i]);
else if (!isFinalsymbol(str[i]) && !exist(Echar, str[i])) // 产生式右边 需要判断终结符
Echar.Add(str[i]);
right += str[i++];
}
} // while
i++; // 跳过换行符
if (left != '' && right != '')
{
SLr = new SLRNode(left, right); // 构造每一行最后一个产生式,不存在 '|' 时就是该行产生式本身
SLRproNum.Add(SLr);
}
} // while
Echar.Add('#');
// 构造项目 对产生式集合 LRproNum 中的所有产生式都循环插 '.'
SLRNode Lobj;
for (i = 0; i < SLRproNum.Count; i++)
{
left = '';
right = '';
for (int j = 0; j <= SLRproNum[i].Right.Length; j++) // j 可以等于 length 项目共 length+1 个
{
left = SLRproNum[i].Left;
right = CreObj(SLRproNum[i].Right, j); // 在第 j 个位置插入 '.'
if (j == SLRproNum[i].Right.Length && SLRobjNum.Count != 1)
{
// 在产生式最后的位置插入 . 即为归约项目 项目集中 1 号位置为接受项目
Gy_obj.Add(SLRobjNum.Count); // 归约项目在项目集中的序号 不用 +1 本身就是从 0 开始的
}
Lobj = new SLRNode(left, right);
SLRobjNum.Add(Lobj);
left = ''; // 还原
right = '';
}
}
Creteitemsets(); // 项目集
RStr_obitemset += '\r\n项目集构建:\r\n';
for (int j = 0; j < proitemset.Count; j++)
{
RStr_obitemset += 'I' + j.ToString() + ':' + '\r\n';
for (i = 0; i < proitemset[j].Container.Count; i++)
{
RStr_obitemset += SLRobjNum[proitemset[j].Container[i]].Left.ToString() + '->' + SLRobjNum[proitemset[j].Container[i]].Right.ToString() + '\r\n';
}
}
}
// 求项目集
public void Creteitemsets()
{
List<int> lr_item = new List<int>(100); // 记录项目的序号
lr_item.Add(0);
lr_item = Closure(lr_item); // 构造初始项目集 求闭包
SLRitemsets LR_C = new SLRitemsets();
LR_C.Container = lr_item; // 集合----项目集序号的集合
proitemset.Add(LR_C); // 集合的集合----存放项目集序号集合 的集合
for (int i = 0; i < proitemset.Count; i++) // 整体集合中 第 i 个项目集
{
proitemset[i].Container.Sort(); // 排序由小到大 后面用于判断是否存在的比较
int[] flag = new int[proitemset[i].Container.Count];
for (int fi = 0; fi < proitemset[i].Container.Count; fi++) // 标志位,用来判断该序号是否已经构造
{
flag[fi] = 0;
}
for (int j = 0; j < proitemset[i].Container.Count; j++) // 第 i 个项目集的第 j 个项目
{
if (flag[j] == 1) // 如果已经访问过 就不再构造 找下一个项目
continue;
int index = proitemset[i].Container[j];
for (int pi = 0; pi < SLRobjNum[index].Right.Length - 1; pi++) // length-1 是避免匹配到 . 在最后的规约项目
{
if (SLRobjNum[index].Right[pi] == '.')
{
List<int> lr2_club = new List<int>(100); // 记录项目的序号
char symbol = SLRobjNum[index].Right[pi + 1]; // 记录 .a 转移状态 a. 的符号 a
lr2_club.Add((index + 1)); // 如果遇到 .a 形式的项目序号为 index 那么项目 a. 的序号为 index+1
for (int m1 = j + 1; m1 < proitemset[i].Container.Count; m1++)
{
// 在第 i 个项目集中找到了可以移动的 .:.a 重新遍历第 i 个项目集 j 项目之后的 找到同样可以移动 a 的项目集
int index2 = proitemset[i].Container[m1];
for (int m2 = 0; m2 < SLRobjNum[index2].Right.Length - 1; m2++)
{
if (SLRobjNum[index2].Right[m2] == '.' && SLRobjNum[index2].Right[m2 + 1] == symbol)
{
flag[m1] = 1; // 标记位置为 1 已经访问 之后不再访问
lr2_club.Add(index2 + 1);
}
}
}
lr2_club = Closure(lr2_club); // 求闭包
int value = isexist(lr2_club);
if (value == -1) // -1 表示不存在相同的
{
for (int m3 = 0; m3 < Gy_obj.Count; m3++)
{
if (isnexist(lr2_club, Gy_obj[m3]))
{
Gy_itemset.Add(proitemset.Count);
}
}
SLRitemsets LR_C2 = new SLRitemsets();
dfa[Pindex++] = new DFA(i, symbol, proitemset.Count); // count 不用加 1 本身从 0 开始
LR_C2.Container = lr2_club;
proitemset.Add(LR_C2);
}
else
{
dfa[Pindex++] = new DFA(i, symbol, value);
}
break;
}
}
}
}
}
// 分析表
public void SLRAnaly()
{
SLRAna = new Table[proitemset.Count][];
for (int i = 0; i < proitemset.Count; i++)
{
SLRAna[i] = new Table[Echar.Count + Nchar.Count];
for (int j = 0; j < Echar.Count + Nchar.Count; j++)
{
SLRAna[i][j] = new Table();
}
}
for (int i = 0; i < proitemset.Count; i++)
{
for (int j = 0; j < Echar.Count; j++)
{
char symbol = Echar[j];
List<int> lr2_club = new List<int>(100);
for (int k = 0; k < proitemset[i].Container.Count; k++)
{
int index = proitemset[i].Container[k];
if (SLRobjNum[index].Right.Contains(symbol + '.'))
{
for (int m = 0; m < proitemset.Count; m++)
{
if (dfa[m].from == i && dfa[m].symbol == symbol)
{
SLRAna[i][j].type = 'S';
SLRAna[i][j].id = m;
}
}
}
}
}
for (int j = 0; j < Nchar.Count; j++)
{
char symbol = Nchar[j];
for (int k = 0; k < proitemset.Count; k++)
{
if (dfa[k].from == i && dfa[k].symbol == symbol)
{
SLRAna[i][Echar.Count + j].type = 'G';
SLRAna[i][Echar.Count + j].id = k;
}
}
}
for (int j = 0; j < proitemset[i].Container.Count; j++)
{
int index = proitemset[i].Container[j];
if (SLRobjNum[index].Right.EndsWith('.'))
{
if (SLRobjNum[index].Left == 'S'')
{
SLRAna[i][Echar.IndexOf('#')].type = 'A';
}
else
{
for (int k = 0; k < SLRproNum.Count; k++)
{
if (SLRproNum[k].Left == SLRobjNum[index].Left && SLRproNum[k].Right == SLRobjNum[index].Right.TrimEnd('.'))
{
for (int m = 0; m < Echar.Count; m++)
{
if (SLRAna[i][m].type == 'S' && SLRAna[i][m].id == k)
{
SLRAna[i][m].type = 'R';
SLRAna[i][m].id = Gy_obj.IndexOf(index);
}
}
}
}
}
}
}
}
}
// ... 其他辅助函数 ...
}
三、代码说明
- 该代码中的
SLRAnaly()函数实现了 SLR 分析表构建算法。 SLRproNum列表存储了所有产生式,SLRobjNum列表存储了所有项目,proitemset列表存储了所有项目集。Gy_obj列表存储了所有归约项目的序号,Gy_itemset列表存储了所有包含归约项目的项目集的序号。Nchar列表存储了所有非终结符,Echar列表存储了所有终结符。dfa数组存储了 DFA 状态机中的所有转移关系。
四、总结
本文详细介绍了 SLR 分析表构建算法的原理,并提供了相应的 C# 代码实现。该算法通过构建 DFA 状态机和项目集,并根据项目集的闭包和转移关系,最终生成 SLR 分析表。SLR 分析表是语法分析中的一种重要数据结构,它能够有效地指导语法分析器识别输入字符串是否符合文法规则。
原文地址: https://www.cveoy.top/t/topic/f1P1 著作权归作者所有。请勿转载和采集!