Java 使用 HanLP 提取文本地址信息
要从字段文本中提取出地址信息,可以使用 HanLP 中的地址识别功能。以下是一个基本的 Java 代码示例,演示如何使用 HanLP 提取地址信息:
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.tokenizer.NLPTokenizer;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;
import java.util.List;
public class AddressExtractor {
public static void main(String[] args) {
String text = '我家的地址是北京市海淀区中关村大街27号';
List<Term> termList = NLPTokenizer.segment(text);
for (Term term : termList) {
if (term.nature.startsWith('ns')) {
System.out.println(term.word);
}
}
}
}
在这个示例中,我们首先定义了一个字符串变量text,它包含了一个地址信息。我们使用NLPTokenizer对文本进行分词,并遍历分词结果。对于每个分词结果,如果它的词性(nature)以“ns”开头,我们就将其输出,因为“ns”代表着地名。
在这个示例中,我们的输出是“北京市海淀区中关村大街27号”,因为它是一个完整的地址。如果你的文本中包含多个地址,你可能需要进一步处理来确定哪些是有效的地址。
原文地址: https://www.cveoy.top/t/topic/oI7T 著作权归作者所有。请勿转载和采集!