Java 使用 HanLP 提取文本地址信息

要从字段文本中提取出地址信息，可以使用 HanLP 中的地址识别功能。以下是一个基本的 Java 代码示例，演示如何使用 HanLP 提取地址信息：

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.tokenizer.NLPTokenizer;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;

import java.util.List;

public class AddressExtractor {
    public static void main(String[] args) {
        String text = '我家的地址是北京市海淀区中关村大街27号';
        List<Term> termList = NLPTokenizer.segment(text);
        for (Term term : termList) {
            if (term.nature.startsWith('ns')) {
                System.out.println(term.word);
            }
        }
    }
}

在这个示例中，我们首先定义了一个字符串变量text，它包含了一个地址信息。我们使用NLPTokenizer对文本进行分词，并遍历分词结果。对于每个分词结果，如果它的词性（nature）以“ns”开头，我们就将其输出，因为“ns”代表着地名。

在这个示例中，我们的输出是“北京市海淀区中关村大街27号”，因为它是一个完整的地址。如果你的文本中包含多个地址，你可能需要进一步处理来确定哪些是有效的地址。