使用C++从NCBI BioProject搜索基因并提取Accession号

要实现这个功能，你需要使用C++编程语言以及相应的网络库来进行网页爬取。以下是一个示例代码，它使用C++的libcurl库来进行网页爬取，并将结果输出到txt文件中。

#include <iostream>
#include <fstream>
#include <string>
#include <curl/curl.h>

// 回调函数，用于处理网页数据
size_t WriteCallback(void* contents, size_t size, size_t nmemb, std::string* output)
{
    size_t totalSize = size * nmemb;
    output->append((char*)contents, totalSize);
    return totalSize;
}

int main()
{
    std::string geneName;
    std::cout << "请输入基因名字: ";
    std::cin >> geneName;

    // 创建输出文件
    std::ofstream outputFile("accession.txt");
    if (!outputFile)
    {
        std::cerr << "无法创建输出文件!" << std::endl;
        return 1;
    }

    // 初始化libcurl
    curl_global_init(CURL_GLOBAL_DEFAULT);
    CURL* curl = curl_easy_init();
    if (!curl)
    {
        std::cerr << "无法初始化libcurl!" << std::endl;
        return 1;
    }

    // 设置请求URL
    std::string url = "https://www.ncbi.nlm.nih.gov/bioproject/?term=" + geneName;

    // 发送HTTP请求并获取响应
    std::string response;
    curl_easy_setopt(curl, CURLOPT_URL, url.c_str());
    curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback);
    curl_easy_setopt(curl, CURLOPT_WRITEDATA, &response);
    CURLcode res = curl_easy_perform(curl);
    if (res != CURLE_OK)
    {
        std::cerr << "请求失败: " << curl_easy_strerror(res) << std::endl;
        return 1;
    }

    // 解析响应，提取Accession号
    size_t startPos = 0;
    size_t endPos = 0;
    while ((startPos = response.find('Accession:', endPos)) != std::string::npos)
    {
        startPos += 10;
        endPos = response.find('</a>', startPos);
        std::string accession = response.substr(startPos, endPos - startPos);
        outputFile << accession << std::endl;
    }

    // 清理资源
    curl_easy_cleanup(curl);
    curl_global_cleanup();
    outputFile.close();

    std::cout << "结果已保存到accession.txt文件中。" << std::endl;

    return 0;
}

请注意，这个代码只能获取第一页的结果。如果你需要获取所有页的结果，你可能需要进一步解析网页中的分页信息，并发送多个HTTP请求来获取所有页的结果。这可能需要更复杂的代码来实现。