利用阿里云GPU加速服务器实现pdf转换为markdown格式

阿里云

自从AI模型出现之后现在需要使用GPU来需求日益增多,尤其是个人想要学习,研究,训练模型。如果自己直接购置硬件,无疑是一笔大开销,加上这些显卡等硬件更新迭代也是快的, 所以前期只是学习,或者验证一下自己的思路,个人来看不值得直接花大价钱来买来硬件设备。常言道:买不如租,所以这是使用阿里云等提供的GPU加速型服务器不失为一个不错的方案。 比如这次来说,我使用开源项目 Marker 可以快速准确地将 PDF 转换为 markdown、JSON 和 HTML。

购置服务器

注意:

  • 选择 抢占式实列(按照实际来选)
  • 选择 规格对应 是 A10 的
  • 其中如果有需要可以勾选自动安装显卡驱动的选项,整体安装速度还行
  • 另外因为需要下载国外的训练好的模型数据,为了减少网络干扰因素,所以选择海外地区的服务器

配置截图

安装依赖环境

这里安装的Linux系统是 Alibaba Cloud Linux

mkdir pdftomarkdown
cd pdftomarkdown

# 需要使用python10+,安装最新版本
dnf install python3.11 

python3.11 -m venv venv

source venv/bin/activate

## 安装软件
## 如果检测到显卡驱动,会自动安装对应的依赖包,这个对pdf解析精度是会有大大的帮助的
pip install marker-pdf


### 单个文件识别
marker_single /path/to/file

更多的使用方式可以参考这里

问题总结

下载 huggingface 模型数据失败

download from huggingface.co timedout

需要科学上网,所以直接选择 东京 地区的服务器可以解决 https://huggingface.co/

需要安装底层库

对应的是 libX11 和 libXext 没有找到的问题报错

dnf install libX11 libXext

推荐

Publish on 2024-12-17,Update on 2025-02-10