Python爬虫中 BASE_URL 的使用解释

Python 爬虫中 BASE_URL 的使用解释

在以下代码片段中，BASE_URL 可以在 scrape_index 函数中直接调用，无需输入：

def scrape_index(page):
    # 获取列表页的 HTML 代码
    index_url = f'{BASE_URL}/list{page}.htm'
    return scrape_page(index_url)

原因：

BASE_URL 可能是一个全局变量，或者在函数作用域范围内定义的一个常量。在函数中直接调用全局变量或常量是合法的。

全局变量：

如果 BASE_URL 在函数之外定义，它就是一个全局变量。这意味着函数可以访问和使用它。

常量：

如果 BASE_URL 在函数内部用 const 关键字定义，它就是一个常量。常量在定义后不可修改，函数也可以直接使用它。

示例：

BASE_URL = 'https://example.com'

def scrape_index(page):
    # 获取列表页的 HTML 代码
    index_url = f'{BASE_URL}/list{page}.htm'
    return scrape_page(index_url)

在这个示例中，BASE_URL 是一个全局变量，因此在 scrape_index 函数中可以无需输入直接使用它。

注意：

在使用全局变量或常量时，需要注意命名冲突。如果在函数内部定义了一个与全局变量同名的变量，函数内部将优先使用局部变量。为了避免这种情况，建议使用不同的变量名或在全局变量名前加前缀 g_ 来区分。