百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 优雅编程 > 正文

666,这个 PDF 库比其它工具好用 99 倍

sinye56 2024-11-23 22:08 1 浏览 0 评论

将网页转换为pdf之前用过 wkhtmltopdf 这个工具,对应的 Python 库是 pdfkit,但是最终转换出来的效果总是不尽如意。

最近发现一个新的库 WeasyPrint , 经过一番测试效果非常不错,无论是从官方网站的介绍还是提供的文档,看得出作者应该是花了不少心思来做这件事。

最重要的是,安装简单,使用方便。不像pdfkit调用的都是 wkhtmltopdf 提供的指令,而 WeasyPrint 是一个原生的Python项目,所以特别适合做 Python 定制开发,当然,它也需要依赖其它第三方库。

安装

WeasyPrint 能在 Linux, macOS and Windows 多平台支持,因为WeasyPrint需要依赖 cairo, Pango 和 GDK-PixBuf ,所以这些软件需要独立安装,而 WeasyPrint 可以直接通过 pip 安装。

Mac

brew install python3 cairo pango gdk-pixbuf libffiWindow
Windows的安装要稍微麻烦些, 主要是安装 GTK+ 这个库,下载地址:https://github.com/tschoonj/GTK-for-Windows-Runtime-Environment-Installer/releases/download/2020-11-22/gtk3-runtime-3.24.23-2020-11-22-ts-win64.exe

安装WeasyPrint

Window

Windows的安装要稍微麻烦些, 主要是安装 GTK+ 这个库,下载地址:https://github.com/tschoonj/GTK-for-Windows-Runtime-Environment-Installer/releases/download/2020-11-22/gtk3-runtime-3.24.23-2020-11-22-ts-win64.exe

安装WeasyPrint

pip install WeasyPrint

不出意外的话,你现在就可以使用 WeasyPrint 这个工具了。执行 weasyprint 命令, 指定要转换的 url 地址和 pdf 文件名即可。

我们随便指定一个 URL 地址,这里以我的博客为例

weasyprint https://foofish.net/base64.html  base64.pdf

最后生成的效果图

这就完了吗?

肯定不是,如果只是单纯的转换一个网页,直接用浏览器的打印功能,然后另存为 PDF 就可以了。没必要绕个这么大的弯子来做这件事。

我们之所以用它来做 PDF 转换肯定是希望它能够为我们实现自动化、批量化、个性化的任务。

构建 HTML 对象

生成 PDF 文件前,首先需要构建一个 HTML 对象,HTML 对象可以通过 url 链接、文件路径,或者是 HTML 文档字符串指定

from weasyprint import HTML

HTML(filename='../foo.html')

HTML(url='http://weasyprint.org')

HTML(string='''
    <h1>The title</h1>
    <p>Content goes here
''')

生成 pdf 文件只需要调用 html 对象的 write_pdf 方法

一个最简单的例子:

from weasyprint import HTML
HTML('https://foofish.net/base64.html').write_pdf('base64.pdf')

在转换的时候,你还可以自定义样式

from weasyprint import HTML, CSS
HTML('https://foofish.net/base64.html').write_pdf('base64.pdf',
    stylesheets=[CSS(string='body { font-family: serif !important }')])

当然不仅可以生成PDF,也可以生成PNG图片, 只需要调用 html.write_png(“filename.png”)。

Document对象

此外,HTML 对象的 render 方法返回一个 document 对象,通过 document 对象可以拿到所有页码(page)数据,这样你就可以获取指定页的数据来生成 PDF 或者将多个 HTML 的 document 对象合并成一个 PDF 文件。

例如,将每页单独生成一张图片

html1 = HTML("https://foofish.net/base64.html")
document = html1.render()
for i, page in enumerate(document.pages):
    document.copy([page]).write_png('page_%s.png' % i)

例如:将两个链接整个生成一个PDF文件

html1 = HTML("https://foofish.net/base64.html")
html2 = HTML("https://foofish.net/python-wsgi.html")
pages = []
pages.extend(html1.render().pages)
pages.extend(html2.render().pages)
HTML(string="").render().copy(pages).write_pdf("foofish.pdf")

相关推荐

Linux在线安装JDK1.8

首先在服务器pingwww.baidu.com查看是否可以连网然后就可以在线下载一、下载安装JDK1.81、在下载安装的同时做好一些准备工作...

Linux安装JDK,超详细

1、了解RPMRPM是Red-HatPackageManager(RPM软件包管理器)的缩写,这一文件格式名称虽然打上了RedHat的标志,但是其原始设计理念是开放式的,现在包括OpenLinux...

Linux安装jdk1.8(超级详细)

前言最近刚购买了一台阿里云的服务器准备要搭建一个网站,正好将网站的一个完整搭建过程分享给大家!#一、下载jdk1.8首先我们需要去下载linux版本的jdk1.8安装包,我们有两种方式去下载安装...

Linux系统安装JDK教程

下载jdk-8u151-linux-x64.tar.gz下载地址:https://www.oracle.com/technetwork/java/javase/downloads/index.ht...

干货|JDK下载安装与环境变量配置图文教程「超详细」

1.JDK介绍1.1什么是JDK?SUN公司提供了一套Java开发环境,简称JDK(JavaDevelopmentKit),它是整个Java的核心,其中包括Java编译器、Java运行工具、Jav...

Linux下安装jdk1.8

一、安装环境操作系统:CentOSLinuxrelease7.6.1810(Core)JDK版本:1.8二、安装步骤1.下载安装包...

Linux上安装JDK

以CentOS为例。检查是否已安装过jdk。yumlist--installed|grepjdk或者...

Linux系统的一些常用目录以及介绍

根目录(/):“/”目录也称为根目录,位于Linux文件系统目录结构的顶层。在很多系统中,“/”目录是系统中的唯一分区。如果还有其他分区,必须挂载到“/”目录下某个位置。整个目录结构呈树形结构,因此也...

Linux系统目录结构

一、系统目录结构几乎所有的计算机操作系统都是使用目录结构组织文件。具体来说就是在一个目录中存放子目录和文件,而在子目录中又会进一步存放子目录和文件,以此类推形成一个树状的文件结构,由于其结构很像一棵树...

Linux文件查找

在Linux下通常find不很常用的,因为速度慢(find是直接查找硬盘),通常我们都是先使用whereis或者是locate来检查,如果真的找不到了,才以find来搜寻。为什么...

嵌入式linux基本操作之查找文件

对于很多初学者来说都习惯用windows操作系统,对于这个系统来说查找一个文件简直不在话下。而学习嵌入式开发行业之后,发现所用到的是嵌入式Linux操作系统,本想着跟windows类似,结果在操作的时...

linux系统查看软件安装目录的方法

linux系统下怎么查看软件安装的目录?方法1:whereis软件名以查询nginx为例子...

Linux下如何对目录中的文件进行统计

统计目录中的文件数量...

Linux常见文件目录管理命令

touch用于创建空白文件touch文件名称mkdir用于创建空白目录还可以通过参数-p创建递归的目录...

Linux常用查找文件方法总结

一、前言Linux系统提供了多种查找文件的命令,而且每种查找命令都具有其独特的优势,下面详细总结一下常用的几个Linux查找命令。二、which命令查找类型:二进制文件;...

取消回复欢迎 发表评论: