9赞

在git repo中查找超过x兆字节的文件,这些文件在HEAD中不存在

作者：无名有名我无名_593 | 2023-09-02 18:28

如何解决《在gitrepo中查找超过x兆字节的文件,这些文件在HEAD中不存在》经验，为你挑选了5个好方法。

我有一个Git存储库我存储随机的东西.大多是随机脚本,文本文件,我设计的网站等等.

我随着时间的推移删除了一些大型二进制文件(通常为1-5MB),它们会增加存储库的大小,这在修订历史中是不需要的.

基本上我希望能够做到..

me@host:~$ [magic command or script]
aad29819a908cc1c05c3b1102862746ba29bafc0 : example/blah.psd : 3.8MB : 130 days old
6e73ca29c379b71b4ff8c6b6a5df9c7f0f1f5627 : another/big.file : 1.12MB : 214 days old

..然后能够查看每个结果,检查是否不再需要然后删除它(可能使用filter-branch)

1> Aristotle Pa..：

这是我之前发布的git-find-blob脚本的改编:

#!/usr/bin/perl
use 5.008;
use strict;
use Memoize;

sub usage { die "usage: git-large-blob  []\n" }

@ARGV or usage();
my ( $max_size, $unit ) = ( shift =~ /^(\d+)([bkm]?)\z/ ) ? ( $1, $2 ) : usage();

my $exp = 10 * ( $unit eq 'b' ? 0 : $unit eq 'k' ? 1 : 2 );
my $cutoff = $max_size * 2**$exp; 

sub walk_tree {
    my ( $tree, @path ) = @_;
    my @subtree;
    my @r;

    {
        open my $ls_tree, '-|', git => 'ls-tree' => -l => $tree
            or die "Couldn't open pipe to git-ls-tree: $!\n";

        while ( <$ls_tree> ) {
            my ( $type, $sha1, $size, $name ) = /\A[0-7]{6} (\S+) (\S+) +(\S+)\t(.*)/;
            if ( $type eq 'tree' ) {
                push @subtree, [ $sha1, $name ];
            }
            elsif ( $type eq 'blob' and $size >= $cutoff ) {
                push @r, [ $size, @path, $name ];
            }
        }
    }

    push @r, walk_tree( $_->[0], @path, $_->[1] )
        for @subtree;

    return @r;
}

memoize 'walk_tree';

open my $log, '-|', git => log => @ARGV, '--pretty=format:%T %h %cr'
    or die "Couldn't open pipe to git-log: $!\n";

my %seen;
while ( <$log> ) {
    chomp;
    my ( $tree, $commit, $age ) = split " ", $_, 3;
    my $is_header_printed;
    for ( walk_tree( $tree ) ) {
        my ( $size, @path ) = @$_;
        my $path = join '/', @path;
        next if $seen{ $path }++;
        print "$commit $age\n" if not $is_header_printed++;
        print "\t$size\t$path\n";
    }
}


        
我很难理解这段代码.有关如何使用nice命令的任何示例？ 
啊哈.没有争论.它只是花了一些时间才能输出任何东西到屏幕上.git-large-blob 500k 

2> mislav..：
更紧凑的红宝石脚本:

#!/usr/bin/env ruby -w
head, treshold = ARGV
head ||= 'HEAD'
Megabyte = 1000 ** 2
treshold = (treshold || 0.1).to_f * Megabyte

big_files = {}

IO.popen("git rev-list #{head}", 'r') do |rev_list|
  rev_list.each_line do |commit|
    commit.chomp!
    for object in `git ls-tree -zrl #{commit}`.split("\0")
      bits, type, sha, size, path = object.split(/\s+/, 5)
      size = size.to_i
      big_files[sha] = [path, size, commit] if size >= treshold
    end
  end
end

big_files.each do |sha, (path, size, commit)|
  where = `git show -s #{commit} --format='%h: %cr'`.chomp
  puts "%4.1fM\t%s\t(%s)" % [size.to_f / Megabyte, path, where]
end


用法:

ruby big_file.rb [rev] [size in MB]
$ ruby big_file.rb master 0.3
3.8M  example/blah.psd  (aad2981: 4 months ago)
1.1M  another/big.file  (6e73ca2: 2 weeks ago)

        
这是一个很好的答案,但确实有一个缺陷.大对象存储在哈希`big_files`中,它使用`sha`作为唯一键.理论上这很好 - 毕竟每个对象blob都是独一无二的.但是,在实践中,可以想象您在存储库中的多个位置具有_exactly_相同的文件.例如,这可能是一个测试文件,它需要不同的文件名但不是不同的_physical content_.**如果您看到一个大型对象带有您不需要但您不知道的路径,则会出现问题,这个文件存在于其他需要的地方.** 

3> SigTerm..：
Python脚本做同样的事情(基于这篇文章):

#!/usr/bin/env python

import os, sys

def getOutput(cmd):
    return os.popen(cmd).read()

if (len(sys.argv) <> 2):
    print "usage: %s size_in_bytes" % sys.argv[0]
else:
    maxSize = int(sys.argv[1])

    revisions = getOutput("git rev-list HEAD").split()

    bigfiles = set()
    for revision in revisions:
        files = getOutput("git ls-tree -zrl %s" % revision).split('\0')
        for file in files:
            if file == "":
                continue
            splitdata = file.split()
            commit = splitdata[2]
            if splitdata[3] == "-":
                continue
            size = int(splitdata[3])
            path = splitdata[4]
            if (size > maxSize):
                bigfiles.add("%10d %s %s" % (size, commit, path))

    bigfiles = sorted(bigfiles, reverse=True)

    for f in bigfiles:
        print f

        

4> 小智..：
哎哟...第一个剧本(亚里士多德),很慢.在git.git repo上,查找> 100k的文件,它会占用CPU大约6分钟.

它似乎也打印了几个错误的SHA  - 通常打印的SHA与下一行中提到的文件名无关.

这是一个更快的版本.输出格式不同,但速度非常快,而且 - 据我所知 - 正确.

该方案是多一点的时间,但很多是空话.

#!/usr/bin/perl
use 5.10.0;
use strict;
use warnings;

use File::Temp qw(tempdir);
END { chdir( $ENV{HOME} ); }
my $tempdir = tempdir( "git-files_tempdir.XXXXXXXXXX", TMPDIR => 1, CLEANUP => 1 );

my $min = shift;
$min =~ /^\d+$/ or die "need a number";

# ----------------------------------------------------------------------

my @refs =qw(HEAD);
@refs = @ARGV if @ARGV;

# first, find blob SHAs and names (no sizes here)
open( my $objects, "-|", "git", "rev-list", "--objects", @refs) or die "rev-list: $!";
open( my $blobfile, ">", "$tempdir/blobs" ) or die "blobs out: $!";

my ( $blob, $name );
my %name;
my %size;
while (<$objects>) {
    next unless / ./;    # no commits or top level trees
    ( $blob, $name ) = split;
    $name{$blob} = $name;
    say $blobfile $blob;
}
close($blobfile);

# next, use cat-file --batch-check on the blob SHAs to get sizes
open( my $sizes, "-|", "< $tempdir/blobs git cat-file --batch-check | grep blob" ) or die "cat-file: $!";

my ( $dummy, $size );
while (<$sizes>) {
    ( $blob, $dummy, $size ) = split;
    next if $size < $min;
    $size{ $name{$blob} } = $size if ( $size{ $name{$blob} } || 0 ) < $size;
}

my @names_by_size = sort { $size{$b} <=> $size{$a} } keys %size;

say "
The size shown is the largest that file has ever attained.  But note
that it may not be that big at the commit shown, which is merely the
most recent commit affecting that file.
";

# finally, for each name being printed, find when it was last updated on each
# branch that we're concerned about and print stuff out
for my $name (@names_by_size) {
    say "$size{$name}\t$name";

    for my $r (@refs) {
        system("git --no-pager log -1 --format='%x09%h%x09%x09%ar%x09$r' $r -- $name");
    }
    print "\n";
}
print "\n";

        

5> Roberto Tyle..：
您想使用BFG Repo-Cleaner,这是一种更快,更简单的替代品,git-filter-branch专门用于从Git repos中删除大文件.

下载BFG jar(需要Java 6或更高版本)并运行以下命令:

$ java -jar bfg.jar  --strip-blobs-bigger-than 1M  my-repo.git


任何超过1M的文件(不在最近的提交中)都将从Git存储库的历史记录中删除.然后,您可以使用git gc清除死数据:

$ git gc --prune=now --aggressive


BFG通常比运行速度快10-50倍,git-filter-branch并且这些选项围绕这两种常见用例进行了定制:


删除疯狂的大文件
删除密码,凭据和其他私人数据


完全披露:我是BFG Repo-Cleaner的作者.

        
BFG非常适合删除文件,但如何查找_which_文件将被删除？



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        $ resource service .success不是一个函数
                    

                    
                                                
                        如何解决《$resourceservice.success不是一个函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在AuthorizedAttribute中设置viewbag？
                    

                    
                                                
                        如何解决《如何在AuthorizedAttribute中设置viewbag？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Android将String转换为JSONObject
                    

                    
                                                
                        如何解决《Android将String转换为JSONObject》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        是否可以使用Mockito验证测试的对象方法调用？
                    

                    
                                                
                        如何解决《是否可以使用Mockito验证测试的对象方法调用？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Visual Studio Online上生成构建器还原所有NuGet包？
                    

                    
                                                
                        如何解决《如何在VisualStudioOnline上生成构建器还原所有NuGet包？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        创建没有开发人员证书的ipa进行远程分发
                    

                    
                                                
                        如何解决《创建没有开发人员证书的ipa进行远程分发》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么不创建jdbc连接池？
                    

                    
                                                
                        如何解决《为什么不创建jdbc连接池？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        根据列值删除pandas数据帧中的行
                    

                    
                                                
                        如何解决《根据列值删除pandas数据帧中的行》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么按钮没有对齐？
                    

                    
                                                
                            
                        
                                                
                        如何解决《为什么按钮没有对齐？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        C++ #define在main中,如何获取其他.cpp文件才能看到它？
                    

                    
                                                
                        如何解决《C++#define在main中,如何获取其他.cpp文件才能看到它？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在android中的单元测试和仪器测试之间共享资源？
                    

                    
                                                
                        如何解决《如何在android中的单元测试和仪器测试之间共享资源？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        $ routeChangeSuccess的奇怪行为:第一次加载时没有触发(但没有抛出任何错误)
                    

                    
                                                
                        如何解决《$routeChangeSuccess的奇怪行为:第一次加载时没有触发(但没有抛出任何错误)》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在OSX上通过docker-py连接到Docker-Machine
                    

                    
                                                
                        如何解决《在OSX上通过docker-py连接到Docker-Machine》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        装配ADC(附带进位)
                    

                    
                                                
                        如何解决《装配ADC(附带进位)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        IAM用户可以在我的AWS账户上支付服务费用吗？
                    

                    
                                                
                        如何解决《IAM用户可以在我的AWS账户上支付服务费用吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swift相当于Python切片赋值
                    

                    
                                                
                        如何解决《Swift相当于Python切片赋值》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        WatchKit Extension看不到带有App Group的NSUserDefaults中保存的数据
                    

                    
                                                
                            
                        
                                                
                        如何解决《WatchKitExtension看不到带有AppGroup的NSUserDefaults中保存的数据》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用python在revit中创建和分配子类别
                    

                    
                                                
                        如何解决《使用python在revit中创建和分配子类别》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        方法调用后字节大小不正确
                    

                    
                                                
                        如何解决《方法调用后字节大小不正确》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        unique_constraint无法识别2个字段
                    

                    
                                                
                        如何解决《unique_constraint无法识别2个字段》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                无名有名我无名_593            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1JSPM  - 使用import和使用脚本标记包含客户端库文件是否有任何优点/缺点？
                
                                
                    2如何让Yii2处理数据提供者的两个不同实例？
                
                                
                    3img src属性的json值显示android TextView中的小蓝色框
                
                                
                    4比较者不工作
                
                                
                    5如何在python中保护密码
                
                                
                    6instance_eval和singleton方法之间的区别
                
                                
                    7AngularJS:显示加载器图像,直到加载数据
                
                                
                    8Microsoft JScript运行时错误:对象预期代码800A13F
                
                                
                    9隐藏状态monad的类型参数
                
                                
                    10对于MVC6 RC1,现有的MVC项目是否有简单的升级过程？
                
                                
                    11动态突出显示时,将项目符号添加到<p>？
                
                                
                    12是否可以将EntityFramework与MemSQL一起使用？
                
                                
                    13为什么clock()返回1.84467e + 13？
                
                                
                    14如何修复数组索引超出范围的异常
                
                                
                    15使用Express.JS来使用API
                
                                
                    16获取没有指定子项的父(作业)的SQL查询(状态)
                
                                
                    17如何使用dplyr汇总与组不匹配的值
                
                                
                    18po> 2&1对popen做了什么？
                
                                
                    19无效的'asm':嵌套的汇编方言替代品
                
                                
                    20允许在Javascript中使用命名参数或位置参数