实验步骤：基于倒排索引的文本检索实验报告

实验步骤：

导入必要的库和模块：
- sys：用于系统相关的操作。
- collections：提供字典等数据结构。
- textblob：用于文本处理，包括词干提取和词形还原。
定义函数tokenize_tweet用于解析文档中的每一行数据：
- 将文档中的大写字母转换为小写字母。
- 提取出需要的属性信息，例如'username'、'tweetid'、'text'。
- 使用TextBlob对文档进行令牌化，得到单词列表。
- 对每个单词进行词干提取和词形还原，将结果保存在一个新的列表中。
- 返回这个列表。
定义函数get_postings用于读取文档并构建倒排索引：
- 打开文档，并逐行读取。
- 对每一行数据调用tokenize_tweet函数进行解析，得到单词列表。
- 遍历单词列表，对于每个单词：
  - 如果它已经在倒排索引中存在，就将当前行的tweetid添加到该单词的列表中。
  - 否则，就创建一个新的列表，并将当前行的tweetid添加到该列表中。
- 最后将所有的倒排索引保存在全局变量postings中。
定义四个操作函数op_and、op_or、op_not和op_andnot，分别用于实现and、or、not和and not操作：
- 这些函数接受两个单词作为参数，返回满足操作条件的tweetid列表。
- op_and函数实现and操作。
- op_or函数实现or操作。
- op_not函数实现not操作。
- op_andnot函数实现and not操作。
定义函数do_rankSearch用于对查询结果进行排序：
- 该函数接受一个单词列表作为参数。
- 遍历列表中的每个单词，在倒排索引中查找对应的tweetid，并计算每个tweetid的得分。
- 最后将得分排序，并返回排序后的结果。
定义函数token用于对查询语句进行解析和处理：
- 该函数接受一个查询语句作为参数。
- 将查询语句转换为小写字母，并进行词干提取和词形还原，返回处理后的结果。
定义函数do_search用于进行查询操作：
- 该函数首先调用token函数对查询语句进行处理，得到单词列表。
- 然后根据单词列表的长度，判断查询语句的类型，并调用相应的操作函数进行查询。
- 最后输出查询结果。
定义函数main用于执行整个程序的逻辑：
- 在该函数中，首先调用get_postings函数构建倒排索引。
- 然后进入一个循环，不断调用do_search函数进行查询，直到用户输入空字符串为止。
在程序的最后，使用main函数作为程序的入口点，执行整个程序的逻辑。