我已经能够将原始数据从其他无法访问的USB驱动器复制到大约250MB的单片文件中.在那个blob字节中的某个地方大约有40个Word文档.
我在哪里可以找到有关Word文档内部结构的文档,以便我可以解析字节流,识别Word文档的起始位置并完成并提取副本?
是否有任何特定于此任务的编程语言的库?
任何人都可以建议已经存在的软件解决方案吗?
Stefan Mai.. 5
两种方法:
您可以在linux中将文件挂载为卷.如果您的二进制blob没有太多损坏,您可能能够分解文件系统以找出文件所在的位置.它是FAT分区还是NTFS?
如果这不起作用,我会寻找这个字节串:
D0 CF 11 E0 A1 B1 1A E1
这些是office文档文件签名的"神奇字节".它们可能在其他数据中随机出现,但它是一个开始.如果文件碎片化,您将遇到MAJOR问题.
此外,尝试按原样在Word中重新创建文档片段,将其保存到文件中并提取块以在blob中搜索(使用grep二进制或其他).如果您从文件的所有部分获得信息,则应该能够解码它们中的WHERE.把它拼凑回工作的DOC二进制文件似乎很遥远,但恢复其余的文本应该是不可能的.
两种方法:
您可以在linux中将文件挂载为卷.如果您的二进制blob没有太多损坏,您可能能够分解文件系统以找出文件所在的位置.它是FAT分区还是NTFS?
如果这不起作用,我会寻找这个字节串:
D0 CF 11 E0 A1 B1 1A E1
这些是office文档文件签名的"神奇字节".它们可能在其他数据中随机出现,但它是一个开始.如果文件碎片化,您将遇到MAJOR问题.
此外,尝试按原样在Word中重新创建文档片段,将其保存到文件中并提取块以在blob中搜索(使用grep二进制或其他).如果您从文件的所有部分获得信息,则应该能够解码它们中的WHERE.把它拼凑回工作的DOC二进制文件似乎很遥远,但恢复其余的文本应该是不可能的.