ICU 库 Normal 和 BreakWord 策略 对 "hello world, 123hello; openh6armony!" 的分词结果
由于缺少具体的上下文和 ICU 库的版本信息,无法提供确切的答案。但是,通常来说:
- Normal 策略会将文本切分成单词,并将标点符号视为分隔符。因此,它可能会返回 ['hello', 'world', '123hello', 'openh6armony']。
- BreakWord 策略会尝试将文本切分成更细粒度的单元,包括缩写、数字和符号。因此,它可能会返回 ['hello', 'world', '123', 'hello', ';', 'openh', '6', 'armony', '!']。
原文地址: https://www.cveoy.top/t/topic/ofUP 著作权归作者所有。请勿转载和采集!