您现在的位置是：首页 > 明日新闻 > 正文

明日新闻

PDF转网页获取源码（pdf转网页链接）

PDF转网页获取源码

hacker2022-06-14 21:41:22明日新闻46

本文目录一览：1、对于pdf文件，怎么查看它的源文件tex?

本文目录一览：

1、对于pdf文件，怎么查看它的源文件tex?
2、asp.net将PDF文件转换成图片，并且在网页上显示
3、c# pdf转html 源码，插件都行！！！
4、python怎样读取pdf文件的内容

对于pdf文件，怎么查看它的源文件tex?

没有这个东西，pdf是很多软件可以做的，tex只是可以转成pdf而已。

对于你的问题是不是pdf 反向搜索到TeX源码，推荐用 sumatraPDF 阅读器，运行时加

-synctex=1 参数

asp.net将PDF文件转换成图片，并且在网页上显示

本文采用Adobe Acrobat9.0的COM组件，将Pdf文件的每一页转换成对应的图片文件。

开发环境：VS2010，.Net Framework4.0，Adobe Acrobat9.0。

工程中添加COM引用：Adobe Acrobat 9.0 Type Library（必须装了Adobe Acrobat9.0才会有）。

思路：

1、需要用到的COM对象：

1）CAcroPDDoc：Acrobat文档对象。

2）CAcroPDPage：页对象。

3）CAcroRect：用来描述页中一个矩形区域的对象。

4）CAcroPoint：实际上代表的是Size。

2、转换过程：

1）打开文档。

2）取出每一页。

3）获取每一页的大小，生成一个表示该页的矩形区域。

4）将当前页的指定区域编码成图片，并且复制到剪贴板中。

5）将剪贴板中的图片取出，保存为图片文件。

转换函数代码：

public static void ConvertPdf2Image(string pdfFilePath, string imageDirectoryPath,

int beginPageNum, int endPageNum, ImageFormat format, double zoom = 1) {

Acrobat.CAcroPDDoc pdfDoc = null;

Acrobat.CAcroPDPage pdfPage = null;

Acrobat.CAcroRect pdfRect = null;

Acrobat.CAcroPoint pdfPoint = null;

//1)

//生成操作Pdf文件的Com对象

pdfDoc = (Acrobat.CAcroPDDoc)Microsoft.VisualBasic.Interaction.CreateObject("AcroExch.PDDoc", "");

//检查输入参数

if (!pdfDoc.Open(pdfFilePath)) {

throw new FileNotFoundException(string.Format("源文件{0}不存在！", pdfFilePath));

}

if (!Directory.Exists(imageDirectoryPath)) {

Directory.CreateDirectory(imageDirectoryPath);

}

if (beginPageNum = 0) {

beginPageNum = 1;

}

if (endPageNum pdfDoc.GetNumPages() || endPageNum = 0) {

endPageNum = pdfDoc.GetNumPages();

}

if (beginPageNum endPageNum) {

throw new ArgumentException("参数\"beginPageNum\"必须小于\"endPageNum\"！");

}

if (format == null) {

format = ImageFormat.Png;

}

if (zoom = 0) {

zoom = 1;

}

//转换

for (int i = beginPageNum; i = endPageNum; i++) {

//2)

//取出当前页

pdfPage = (Acrobat.CAcroPDPage)pdfDoc.AcquirePage(i - 1);

//3)

//得到当前页的大小

pdfPoint = (Acrobat.CAcroPoint)pdfPage.GetSize();

//生成一个页的裁剪区矩形对象

pdfRect = (Acrobat.CAcroRect)Microsoft.VisualBasic.Interaction.CreateObject("AcroExch.Rect", "");

//计算当前页经缩放后的实际宽度和高度,zoom==1时，保持原比例大小

int imgWidth = (int)((double)pdfPoint.x * zoom);

int imgHeight = (int)((double)pdfPoint.y * zoom);

//设置裁剪矩形的大小为当前页的大小

pdfRect.Left = 0;

pdfRect.right = (short)imgWidth;

pdfRect.Top = 0;

pdfRect.bottom = (short)imgHeight;

//4)

//将当前页的裁剪区的内容编成图片后复制到剪贴板中

pdfPage.CopyToClipboard(pdfRect, 0, 0, (short)(100 * zoom));

//5)

IDataObject clipboardData = Clipboard.GetDataObject();

//检查剪贴板中的对象是否是图片，如果是图片则将其保存为指定格式的图片文件

if (clipboardData.GetDataPresent(DataFormats.Bitmap)) {

Bitmap pdfBitmap = (Bitmap)clipboardData.GetData(DataFormats.Bitmap);

pdfBitmap.Save(

Path.Combine(imageDirectoryPath, i.ToString("0000") + "." + format.ToString()), format);

pdfBitmap.Dispose();

}

//关闭和释放相关COM对象

pdfDoc.Close();

Marshal.ReleaseComObject(pdfRect);

Marshal.ReleaseComObject(pdfPoint);

Marshal.ReleaseComObject(pdfPage);

Marshal.ReleaseComObject(pdfDoc);

}

源代码敬上：

网上有一篇搜集的非常全的将Pdf文件转换成图片的各种方法，拿出来分享：

PDF转网页获取源码（pdf转网页链接）

c# pdf转html 源码，插件都行！！！

可以先使用微软的word组件将其转换为word，然后转换为html，这个基本上就是一个open，saveas选择格式的过程

python怎样读取pdf文件的内容

1，引言

晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题：用Python爬虫的话，能做到什么程度。下面将讲述一个实验过程和源代码。

2，把pdf转换成文本的Python源代码

下面的python源代码，读取pdf文件内容(互联网上的或是本地的)，转换成文本，打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串，然后用StringIO转换成文件对象。（源代码下载地址参看文章末尾的GitHub源）

复制代码

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

复制代码

如果PDF文件在你的电脑里，那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3，展望

这个实验只是把pdf转换成了文本，但是没有像开头所说的转换成html标签，那么在Python编程环境下是否有这个能力，留待今后探索。

4，集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

5，文档修改历史

2016-05-26：V2.0，增补文字说明

2016-05-29：V2.1，增加第六章：源代码下载源，并更换github源的网址

发表评论

评论列表

鸠骨雾敛（2022-06-15 01:11:22）回复取消回复

ord，然后转换为html，这个基本上就是一个open，saveas选择格式的过程python怎样读取pdf文件的内容1，引言晚上翻看《Python网络数据采集》这本书，看到读取PD

馥妴二囍（2022-06-15 00:55:29）回复取消回复

ageNum) { throw new ArgumentException("参数\"beginPageNum\"必须小于\"endPageNum\"！"); } if (format == null) {

可难软酷（2022-06-15 00:41:09）回复取消回复

规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。从而产生了一个问题：用Python爬虫的话，能做到

辙弃娇痞（2022-06-15 00:13:15）回复取消回复

roPDDoc：Acrobat文档对象。 2）CAcroPDPage：页对象。 3）CAcroRect：用来描述页中一个矩形区域的对象。 4）CAcroPoint：实际上代表的是Size。2、转换过程： 1）打开文档。 2）取出每一页。 3）获取每一页的大小，

b2c信息网

明日新闻

PDF转网页获取源码（pdf转网页链接）

对于pdf文件，怎么查看它的源文件tex?

asp.net将PDF文件转换成图片，并且在网页上显示

c# pdf转html 源码，插件都行！！！

python怎样读取pdf文件的内容

黑客红日是哪部小说（红日小说的作者）

算命的说自己二世命是什么意思（算命先生说二世人是什么意思）

相关文章

发表评论

评论列表

明日新闻

PDF转网页获取源码（pdf转网页链接）

对于pdf文件，怎么查看它的源文件tex?

asp.net将PDF文件转换成图片，并且在网页上显示

c# pdf转html 源码，插件 都行！！！

python怎样读取pdf文件的内容

黑客红日是哪部小说（红日小说的作者）

算命的说自己二世命是什么意思（算命先生说二世人是什么意思）

相关文章

发表评论

评论列表

c# pdf转html 源码，插件都行！！！