R语言提取字符串特定部分：以'4C10-14'为例

本教程将演示如何使用R语言从格式类似'4C10-14'的字符串中提取'10-14'部分，并将提取的内容存储到新的数据框列中。

代码示例：

# 假设你的数据框名为df，包含一个名为'format'的列
# 使用正则表达式提取 '10-14' 并创建新的列 'new_column'
df$new_column <- sub('.*([0-9]+-[0-9]+).*', '\1', df$format)

代码解释：

df$format：这部分代码引用了数据框df中的'format'列。请将df替换为你实际使用的数据框名称，将'format'替换为包含目标字符串的列名。
'.*([0-9]+-[0-9]+).*'：这是一个正则表达式，用于匹配目标字符串。其中：
- .* 匹配任意字符（除了换行符）零次或多次
- ([0-9]+-[0-9]+) 匹配一个或多个数字，后跟连字符-，再跟一个或多个数字。括号用于捕获匹配的内容
- \1 引用第一个捕获组的内容，即'10-14'
sub()：这是一个字符串替换函数，它使用正则表达式匹配字符串，并将匹配的部分替换为指定内容。在本例中，我们将匹配的部分替换为\1，即提取的'10-14'。

通过以上代码，你就可以轻松地从字符串中提取所需信息，并将其存储到新的数据框列中，方便后续分析和使用。