Stata 正则表达式筛选:提取数值并去除单位
在 Stata 中,可以使用 regexr() 函数结合正则表达式来实现将包含 '万' 的数值筛选并提取,同时去除单位和逗号。下面是一个示例代码:
// 创建一个示例数据集
clear
input str10 value
'8万'
'1,000万'
end
// 利用正则表达式筛选并替换数值
gen value_new = regexr(value, "([0-9,]+)万", "\1")
replace value_new = regexr(value_new, ",", "")
// 查看结果
list
在上述代码中,首先创建了一个示例数据集,并将数值存储在 value 变量中。然后,利用 regexr() 函数和正则表达式,将包含 '万' 的数值筛选出来,并使用替换规则将其转换成你想要的格式。最后,将结果存储在新的变量 value_new 中,并使用 list 命令查看结果。
在正则表达式中,([0-9,]+)万 用于匹配包含数字和逗号的字符串,并以 '万' 结尾。\1 表示替换为匹配到的第一个括号内的内容。replace 命令的第二个 regexr() 函数用于去除数值中的逗号。
原文地址: https://www.cveoy.top/t/topic/eCnJ 著作权归作者所有。请勿转载和采集!