Python Elasticsearch 无限查询：使用 Scroll API 遍历所有数据

在 Elasticsearch 中，查询返回的结果集通常受到 size 参数限制，默认情况下只返回前 10 条数据。如果需要获取所有数据，可以将 size 设置为一个较大的值，但这不适用于大数据量的情况，因为 Elasticsearch 会缓存查询结果，可能会导致内存溢出。

为了解决这个问题，Elasticsearch 提供了 Scroll API，允许在不受 size 限制的情况下遍历查询结果集。Scroll API 的工作原理是：

执行一次查询。
通过 scroll_id 获取下一页数据。
重复步骤 2 直到遍历完整个结果集。

这种方式避免了内存溢出，但需要注意的是 Scroll API 会占用服务器资源，需要谨慎使用。

以下是一个使用 Scroll API 的 Python 示例代码：

from elasticsearch import Elasticsearch

es = Elasticsearch()

query = {
    'query': {
        'match_all': {}
    }
}

scroll_size = 1000
result = es.search(
    index='my_index',
    body=query,
    scroll='2m',
    size=scroll_size
)

scroll_id = result['_scroll_id']
hits = result['hits']['hits']

while len(hits) > 0:
    for hit in hits:
        # 处理查询结果
        pass

    result = es.scroll(
        scroll_id=scroll_id,
        scroll='2m'
    )

    scroll_id = result['_scroll_id']
hits = result['hits']['hits']

在这个示例中，首先执行一次查询，获取第一页数据的 scroll_id 和 hits。然后，使用 scroll_id 获取下一页数据，直到遍历完整个结果集。注意 scroll 参数指定了每次获取数据的有效时间，超时后需要重新执行查询获取新的 scroll_id。

Python Elasticsearch 无限查询：使用 Scroll API 遍历所有数据