我们在做数据清理时经常会遇到字符型变量的清理问题,Stata提供了大量、功能强大的字符函数,灵活运用字符函数可以高效、快速、精确、准确地清理数据。本文为大家介绍一些常用的Stata 字符函数。其中s 代表字符集,包括字符串、字符型变量或者其他字符表达式,n 代表数值子表达式,包括数字、字符型变量或者其他数值表达式。
1. 字符串的缩写与扩展
abbrev(s,n):适用于所有字符型变量,功能是对s进行缩写,缩写的长度为n,n的取值范围为5-32。
示例:
abbrev("displacement", 8) = “displa~t”
abbrev("北京市海淀区", 8) = “北京~区”
strcat(s1,s2):合并s1、s2。Stata里没有strcat()函数,用加号实现字符之间的连接。
示例:
"hello" + "world" = "hello world"
"a"+ "b" = "ab"
"北京市 " + "海淀区" = "北京市海淀区"
strdup(s1,n):创建n个s1的副本并合并。Stata里没有strdup()函数,用乘号实现字符的多次复制。
示例:
"hello"* 3 = "hellohellohello"
0 * "hello" = ""
"北京市"* 2 = "北京市北京市"
2. 字符串的截取
substr(s,n1,n2):从s中第n1个字符开始截取n2个字符。如果n2缺失,则从第n1个字符开始截取所有字符。如果n10时,从字符s左边开始截取;当n |
|