pdf格式文件最常见的就是扫描版,本质上是图片格式,由一页一页的图片连接起来形成电子书,不同于一般的基于文字录入的电子书,这种图片格式版面是固定的,一般的阅读器只能放大缩小,稍微进一步裁个边,但想做到重排,实际上就已经涉及到对图片内文字的识别,然后再转成文字模式,之后就可以调整行距字间距字号等格式,完成重排,所以本质上是图像识别技术
语音朗读:
pdf格式文件最常见的就是扫描版,本质上是图片格式,由一页一页的图片连接起来形成电子书,不同于一般的基于文字录入的电子书,这种图片格式版面是固定的,一般的阅读器只能放大缩小,稍微进一步裁个边,但想做到重排,实际上就已经涉及到对图片内文字的识别,然后再转成文字模式,之后就可以调整行距字间距字号等格式,完成重排,所以本质上是图像识别技术
语音朗读: