C++抓取NCBI BioProject Accession号教程：根据基因名搜索

使用C++抓取NCBI BioProject Accession号：根据基因名搜索

本教程将引导您使用C++编写一个程序，用于从NCBI BioProject数据库中搜索特定基因并提取其Accession号。

代码示例

以下是完整的C++代码，其中包含详细注释，帮助您理解每一步操作：

#include <iostream>
#include <fstream>
#include <string>
#include <curl/curl.h>

// 回调函数，用于处理libcurl接收到的数据
size_t WriteCallback(void* contents, size_t size, size_t nmemb, std::string* output) {
    size_t total_size = size * nmemb;
    output->append((char*)contents, total_size);
    return total_size;
}

int main() {
    // 输入基因名字
    std::string gene_name;
    std::cout << '请输入基因名字：';
    std::cin >> gene_name;

    // 构建搜索URL
    std::string search_url = 'https://www.ncbi.nlm.nih.gov/bioproject/?term=' + gene_name;

    // 初始化libcurl
    curl_global_init(CURL_GLOBAL_ALL);
    CURL* curl = curl_easy_init();
    if (curl) {
        // 设置libcurl选项
        curl_easy_setopt(curl, CURLOPT_URL, search_url.c_str());
        curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);

        // 创建回调函数的输出字符串
        std::string response;

        // 设置回调函数
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &response);

        // 执行HTTP请求
        CURLcode res = curl_easy_perform(curl);

        // 检查请求是否成功
        if (res != CURLE_OK) {
            std::cerr << '请求失败：' << curl_easy_strerror(res) << std::endl;
            return 1;
        }

        // 关闭libcurl
        curl_easy_cleanup(curl);

        // 将结果写入txt文档
        std::ofstream output_file('accession_numbers.txt');
        if (output_file.is_open()) {
            // 在response中查找Accession号
            size_t start_pos = 0;
            while ((start_pos = response.find('Accession:', start_pos)) != std::string::npos) {
                size_t accession_start = start_pos + 10;
                size_t accession_end = response.find('</dd>', accession_start);
                std::string accession_number = response.substr(accession_start, accession_end - accession_start);
                output_file << accession_number << std::endl;
                start_pos = accession_end;
            }

            output_file.close();
            std::cout << 'Accession号已写入accession_numbers.txt' << std::endl;
        } else {
            std::cerr << '无法打开文件' << std::endl;
            return 1;
        }
    } else {
        std::cerr << '无法初始化libcurl' << std::endl;
        return 1;
    }

    // 清理libcurl
    curl_global_cleanup();

    return 0;
}

代码解释

包含头文件: 程序开头包含了必要的头文件，包括用于输入输出 (iostream)、文件操作 (fstream)、字符串处理 (string) 以及 libcurl 库 (curl/curl.h)。
WriteCallback 函数: 该函数用于处理 libcurl 下载的网页数据，并将数据追加到一个字符串中。
main 函数: 程序的主函数，包含以下步骤：
- 获取用户输入: 提示用户输入目标基因名称。
- 构建搜索URL: 使用输入的基因名称构建 NCBI BioProject 的搜索 URL。
- 初始化 libcurl: 初始化 libcurl 库并创建一个 CURL 对象。
- 设置 libcurl 选项: 设置 libcurl 的选项，例如要访问的 URL、是否跟随重定向等。
- 执行 HTTP 请求: 使用 libcurl 执行 HTTP GET 请求，获取搜索结果页面。
- 解析 HTML 页面: 使用字符串查找函数 (find) 和子字符串提取函数 (substr) 从 HTML 页面中提取 Accession 号。
- 保存 Accession 号: 将提取到的 Accession 号保存到名为 'accession_numbers.txt' 的文本文件中。
编译和运行: 使用以下命令编译和运行程序：

g++ -o search_genes search_genes.cpp -lcurl ./search_genes


### 注意事项

* 确保已安装 libcurl 库及其开发文件。
* 程序假设 NCBI BioProject 网站的 HTML 结构保持不变，如果网站结构发生变化，程序可能需要修改。

希望本教程能够帮助您使用 C++ 从 NCBI BioProject 数据库中提取 Accession 号。如果您有任何问题，请随时提出。

C++抓取NCBI BioProject Accession号教程：根据基因名搜索