10赞

当前位置: 开发笔记 > 编程语言 > 正文

在Bash中提取子字符串

作者：oDavid_仔o_880 | 2023-09-01 10:53

如何解决《在Bash中提取子字符串》经验，为你挑选了14个好方法。

给定表单中的文件名someletters_12345_moreleters.ext,我想提取5位数并将它们放入变量中.

因此,为了强调这一点,我有一个带有x个字符的文件名,然后是一个五位数序列,两边都是一个下划线,然后是另一组x个字符.我想取5位数字并将其放入变量中.

我对可以实现的不同方式的数量非常感兴趣.

1> JB...：

如果x是常量,则以下参数扩展执行子字符串提取:

b=${a:12:5}

其中12是偏移量(从零开始),5是长度

如果数字周围的下划线是输入中的唯一下划线,则可以分两步删除前缀和后缀(分别):

tmp=${a#*_}   # remove prefix ending in "_"
b=${tmp%_*}   # remove suffix starting with "_"

如果有其他下划线,无论如何它可能是可行的,尽管更棘手.如果有人知道如何在单个表达式中执行两个扩展,我也想知道.

所提出的两种解决方案都是纯粹的bash,没有涉及过程产生,因此非常快.

[强大的参数扩展](http://wiki.bash-hackers.org/syntax/pe)

JB,你应该澄清"12"是偏移量(从零开始),"5"是长度.另外,为@gontard的链接+1,将它全部解决!

@SpencerRathbun`bash:$ {$ {a#*_}%_*}:我的GNU bash 4.2.45上的错误替换.

@jonnyB,过去的某个时间有效.我的同事告诉我它停了下来,他们把它变成了一个sed命令或什么的.在历史中看它,我在一个`sh`脚本中运行它,这可能是破折号.在这一点上,我不能让它继续工作.

2> FerranB..：

使用剪切:

echo 'someletters_12345_moreleters.ext' | cut -d'_' -f 2

更通用的:

INPUT='someletters_12345_moreleters.ext'
SUBSTRING=$(echo $INPUT| cut -d'_' -f 2)
echo $SUBSTRING

-f标志采用基于1的索引,而不是程序员习惯使用的基于0的索引.

如何修改代码以获取最后一个'_'？

你应该在`echo`的参数周围使用双引号,除非你确定变量不能包含不规则的空格或shell元字符.另见http://stackoverflow.com/questions/10067266/when-to-wrap-quotes-around-a-variable

INPUT = someletters_12345_moreleters.ext SUBSTRING = $(echo $ INPUT | cut -d'_'-f 2)echo $ SUBSTRING

3> Johannes Sch..：

通用解决方案,其中数字可以是文件名中的任何位置,使用第一个这样的序列:

number=$(echo $filename | egrep -o '[[:digit:]]{5}' | head -n1)

另一种解决方案是精确提取变量的一部分:

number=${filename:offset:length}

如果您的文件名始终具有stuff_digits_...您可以使用awk 的格式:

number=$(echo $filename | awk -F _ '{ print $2 }')

除了数字之外,还有另一种解决方案,使用

number=$(echo $filename | tr -cd '[[:digit:]]')

如果我想从文件的最后一行提取数字/单词怎么办？

4> brown.2179..：

只是尝试使用 cut -c startIndx-stopIndx

`开始= 5;停止= 9; 回应"西班牙的雨"| cut -c $ start - $(($ stop-1))`

有没有像startIndex-lastIndex - 1这样的东西？

`cut -c 9 - $((lastIndx-1))`不起作用.

5> jperelli..：

如果有人想要更严格的信息,你也可以像这样在man bash中搜索它

$ man bash [press return key]
/substring  [press return key]
[press "n" key]
[press "n" key]
[press "n" key]
[press "n" key]

结果:

${parameter:offset}
       ${parameter:offset:length}
              Substring Expansion.  Expands to  up  to  length  characters  of
              parameter  starting  at  the  character specified by offset.  If
              length is omitted, expands to the substring of parameter  start?
              ing at the character specified by offset.  length and offset are
              arithmetic expressions (see ARITHMETIC  EVALUATION  below).   If
              offset  evaluates  to a number less than zero, the value is used
              as an offset from the end of the value of parameter.  Arithmetic
              expressions  starting  with  a - must be separated by whitespace
              from the preceding : to be distinguished from  the  Use  Default
              Values  expansion.   If  length  evaluates to a number less than
              zero, and parameter is not @ and not an indexed  or  associative
              array,  it is interpreted as an offset from the end of the value
              of parameter rather than a number of characters, and the  expan?
              sion is the characters between the two offsets.  If parameter is
              @, the result is length positional parameters beginning at  off?
              set.   If parameter is an indexed array name subscripted by @ or
              *, the result is the length members of the array beginning  with
              ${parameter[offset]}.   A  negative  offset is taken relative to
              one greater than the maximum index of the specified array.  Sub?
              string  expansion applied to an associative array produces unde?
              fined results.  Note that a negative offset  must  be  separated
              from  the  colon  by  at least one space to avoid being confused
              with the :- expansion.  Substring indexing is zero-based  unless
              the  positional  parameters are used, in which case the indexing
              starts at 1 by default.  If offset  is  0,  and  the  positional
              parameters are used, $0 is prefixed to the list.

6> PEZ..：

基于jor的答案(这对我不起作用):

substring=$(expr "$filename" : '.*_\([^_]*\)_.*')

当你有一些复杂的东西时,正则表达式是真正的交易,简单地计算下划线不会"削减"它.

7> user1338062..：

我很惊讶这个纯粹的bash解决方案没有出现:

a="someletters_12345_moreleters.ext"
IFS="_"
set $a
echo $2
# prints 12345

您可能希望将IFS重置为之前或unset IFS之后的值!

+1您可以用另一种方式编写,以避免取消设置`IFS`和位置参数:`IFS = _ read -r _ digs _ <<<"$ a"; 回声"$ digs"`

这取决于路径名扩展!(所以它坏了).

8> nicerobot..：

这是我怎么做的:

FN=someletters_12345_moreleters.ext
[[ ${FN} =~ _([[:digit:]]{5})_ ]] && NUM=${BASH_REMATCH[1]}

注意:以上是正则表达式,仅限于由下划线包围的五位数的特定场景.如果需要不同的匹配,请更改正则表达式.

即使您需要提取多个内容，这也是一种通用方法，就像我所做的那样。

确实，这是最通用的答案，应该接受。它适用于正则表达式，而不仅仅是固定位置的字符串或相同定界符（启用`cut`）之间的字符串。它还不依赖于执行外部命令。

9> fedorqui..：

遵循要求

我有一个带有x个字符的文件名,然后是一个五位数序列,两边都是一个下划线,然后是另一组x个字符.我想取5位数字并将其放入变量中.

我发现了一些grep可能有用的方法:

$ echo "someletters_12345_moreleters.ext" | grep -Eo "[[:digit:]]+" 
12345

或更好

$ echo "someletters_12345_moreleters.ext" | grep -Eo "[[:digit:]]{5}" 
12345

然后用-Po语法:

$ echo "someletters_12345_moreleters.ext" | grep -Po '(?<=_)\d+' 
12345

或者如果你想让它恰好适合5个字符:

$ echo "someletters_12345_moreleters.ext" | grep -Po '(?<=_)\d{5}' 
12345

最后,为了使它存储在变量中,只需要使用var=$(command)语法.

我相信现在没有必要使用egrep,命令本身会警告你:`'asrep'的调用已被弃用; 使用'grep -E'代替`.我已经编辑了你的答案.

10> Darron..：

没有任何子流程,您可以:

shopt -s extglob
front=${input%%_+([a-zA-Z]).*}
digits=${front##+([a-zA-Z])_}

一个非常小的变体也适用于ksh93.

11> 小智..：

如果我们专注于以下概念:
"一个(一个或几个)数字的运行"

我们可以使用几个外部工具来提取数字.
我们可以很容易地删除所有其他字符,sed或tr:

name='someletters_12345_moreleters.ext'

echo $name | sed 's/[^0-9]*//g'    # 12345
echo $name | tr -c -d 0-9          # 12345



但如果$ name包含多个数字,则上述操作将失败:


如果"name = someletters_12345_moreleters_323_end.ext",则:

echo $name | sed 's/[^0-9]*//g'    # 12345323
echo $name | tr -c -d 0-9          # 12345323


我们需要使用常规表达式(正则表达式).

要在sed和perl中仅选择第一次运行(12345而不是323):

echo $name | sed 's/[^0-9]*\([0-9]\{1,\}\).*$/\1/'
perl -e 'my $name='$name';my ($num)=$name=~/(\d+)/;print "$num\n";'


但我们也可以直接在bash ^(1)中做到:

regex=[^0-9]*([0-9]{1,}).*$; \
[[ $name =~ $regex ]] && echo ${BASH_REMATCH[1]}


这允许我们提取

由任何其他文本/字符包围的任何长度的第一轮数字.  

注意:regex=[^0-9]*([0-9]{5,5}).*$;仅匹配5位数运行.:-)

⁽¹⁾:比为每个短文本调用外部工具更快.对于在大型文件中执行sed或awk内的所有处理并不快.

        

12> 小智..：
这是一个前缀后缀解决方案(类似于JB和Darron给出的解决方案),它匹配第一个数字块,不依赖于周围的下划线:

str='someletters_12345_morele34ters.ext'
s1="${str#"${str%%[[:digit:]]*}"}"   # strip off non-digit prefix from str
s2="${s1%%[^[:digit:]]*}"            # strip off non-digit suffix from s1
echo "$s2"                           # 12345

        

13> Campa..：
我喜欢sed处理正则表达式群体的能力:

> var="someletters_12345_moreletters.ext"
> digits=$( echo $var | sed "s/.*_\([0-9]\+\).*/\1/p" -n )
> echo $digits
12345


稍微更通用的选择是不要假设你有一个下划线_标记数字序列的开头,因此例如剥离你在序列之前得到的所有非数字:s/[^0-9]\+\([0-9]\+\).*/\1/p.



> man sed | grep s/regexp/replacement -A 2
s/regexp/replacement/
    Attempt to match regexp against the pattern space.  If successful, replace that portion matched with replacement.  The replacement may contain the special  character  &  to
    refer to that portion of the pattern space which matched, and the special escapes \1 through \9 to refer to the corresponding matching sub-expressions in the regexp.




更多相关信息,如果你对regexp不太自信:


s 适用于_s_ubstitute
[0-9]+ 匹配1+位数
\1 链接到正则表达式输出的组n.1(组0是整个匹配,组1是在这种情况下括号内的匹配)
p flag是_p_rinting


所有逃脱\都是为了进行正则sed表达式处理工作.

        

14> 小智..：
鉴于test.txt是一个包含"ABCDEFGHIJKLMNOPQRSTUVWXYZ"的文件

cut -b19-20 test.txt > test1.txt # This will extract chars 19 & 20 "ST" 
while read -r; do;
> x=$REPLY
> done < test1.txt
echo $x
ST



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        将指针存储到Eigen Vector'segment'而不复制？
                    

                    
                                                
                        如何解决《将指针存储到EigenVector'segment'而不复制？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Redux中将全局状态数据处理为深层嵌套组件？
                    

                    
                                                
                        如何解决《如何在Redux中将全局状态数据处理为深层嵌套组件？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        内部MSBuild错误:已经注册了构建时间
                    

                    
                                                
                            
                        
                                                
                        如何解决《内部MSBuild错误:已经注册了构建时间》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在AsciiDoc中使用图像作为链接
                    

                    
                                                
                        如何解决《在AsciiDoc中使用图像作为链接》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Javascript数组函数有我无法看到的错误
                    

                    
                                                
                        如何解决《Javascript数组函数有我无法看到的错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将对象注入WCF的IErrorHandler？
                    

                    
                                                
                        如何解决《如何将对象注入WCF的IErrorHandler？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Android Studio未与adb GLIBC通信....未找到错误
                    

                    
                                                
                        如何解决《AndroidStudio未与adbGLIBC通信.未找到错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        具有圆角的Android自定义WebView
                    

                    
                                                
                        如何解决《具有圆角的Android自定义WebView》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        何时使用SQLAlchemy .get()vs .filter(Foo.ID == primary_key_id).first()
                    

                    
                                                
                        如何解决《何时使用SQLAlchemy.get()vs.filter(Foo.ID==primary_key_id).first()》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        对于特定用户MySQL,在同一个表中查找日期范围重叠
                    

                    
                                                
                        如何解决《对于特定用户MySQL,在同一个表中查找日期范围重叠》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        WatchKit应用程序提交失败; MinimumOSVersion
                    

                    
                                                
                            
                        
                                                
                        如何解决《WatchKit应用程序提交失败;MinimumOSVersion》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        忽略jshint不必要的分号错误
                    

                    
                                                
                        如何解决《忽略jshint不必要的分号错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Laravel中对孩子进行排序:我如何按名字对孩子进行排序？
                    

                    
                                                
                        如何解决《在Laravel中对孩子进行排序:我如何按名字对孩子进行排序？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在perl中指定单个空格分隔符
                    

                    
                                                
                        如何解决《在perl中指定单个空格分隔符》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        更改Select2的默认字体
                    

                    
                                                
                        如何解决《更改Select2的默认字体》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用Symfony 3目录结构使用Codeception
                    

                    
                                                
                        如何解决《如何使用Symfony3目录结构使用Codeception》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        RSpec:#RSpec :: Core :: ExampleGroup :: Nested的未定义方法`allow'
                    

                    
                                                
                        如何解决《RSpec:#RSpec::Core::ExampleGroup::Nested的未定义方法`allow'》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在WinRT中清除TimeZoneInfo缓存？
                    

                    
                                                
                        如何解决《如何在WinRT中清除TimeZoneInfo缓存？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何查找列表的一部分是否在str中
                    

                    
                                                
                        如何解决《如何查找列表的一部分是否在str中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        单选按钮或复选框是否允许使用咏叹调？
                    

                    
                                                
                        如何解决《单选按钮或复选框是否允许使用咏叹调？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                oDavid_仔o_880            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1在Django中搜索并获取匹配的LDAP用户列表
                
                                
                    2InnoSetup  - 代码签名证书
                
                                
                    3如何从ASP.NET MVC属性中获取枚举值？
                
                                
                    4如何将java泛型转换为Delphi
                
                                
                    5如何使用Spring框架遍历JSP中的列表
                
                                
                    6重新连接到asp.net MVC4应用程序中的Servicestack会话
                
                                
                    7为什么CLISP无法使用未加工名称调用某些函数？
                
                                
                    8使用Boost.Units定义百分比
                
                                
                    9在WinRT应用程序中使用SQLite时出现异常
                
                                
                    10jquery .on('input')不会仅在ie8中被触发
                
                                
                    11如何检查字符是否为元音？
                
                                
                    12如何从Sql Server中的TimeZoneOffset了解TimeZone StandardName或DayLightName
                
                                
                    13INSERT INTO表IF表存在,否则CREATE TABLE
                
                                
                    14Chart.js和长标签
                
                                
                    15在ggplot中生成成对的堆积条形图(仅对某些变量使用position_dodge)
                
                                
                    16Django中带有data-*属性的选项标签,带有清脆的表单
                
                                
                    17[必需]做什么？
                
                                
                    18如何编写一个接受任何扩展Throwable类的集合的方法？
                
                                
                    19给定一个未排序的python列表,我如何找到排序所需的最小移动集
                
                                
                    20使用shell脚本删除派生数据