b2c信息网

您现在的位置是:首页 > 明日新闻 > 正文

明日新闻

PDF转网页获取源码(pdf转网页链接)

hacker2022-06-14 21:41:22明日新闻41
本文目录一览:1、对于pdf文件,怎么查看它的源文件tex?

本文目录一览:

对于pdf文件,怎么查看它的源文件tex?

没有这个东西,pdf是很多软件可以做的,tex只是可以转成pdf而已。

对于你的问题是不是pdf 反向搜索 到TeX源码,推荐用 sumatraPDF 阅读器,运行时加

-synctex=1 参数

asp.net将PDF文件转换成图片,并且在网页上显示

本文采用Adobe Acrobat9.0的COM组件,将Pdf文件的每一页转换成对应的图片文件。

开发环境:VS2010,.Net Framework4.0,Adobe Acrobat9.0。

工程中添加COM引用:Adobe Acrobat 9.0 Type Library(必须装了Adobe Acrobat9.0才会有)。

思路:

1、需要用到的COM对象:

1)CAcroPDDoc:Acrobat文档对象。

2)CAcroPDPage:页对象。

3)CAcroRect:用来描述页中一个矩形区域的对象。

4)CAcroPoint:实际上代表的是Size。

2、转换过程:

1)打开文档。

2)取出每一页。

3)获取每一页的大小,生成一个表示该页的矩形区域。

4)将当前页的指定区域编码成图片,并且复制到剪贴板中。

5)将剪贴板中的图片取出,保存为图片文件。

转换函数代码:

public static void ConvertPdf2Image(string pdfFilePath, string imageDirectoryPath,

int beginPageNum, int endPageNum, ImageFormat format, double zoom = 1) {

Acrobat.CAcroPDDoc pdfDoc = null;

Acrobat.CAcroPDPage pdfPage = null;

Acrobat.CAcroRect pdfRect = null;

Acrobat.CAcroPoint pdfPoint = null;

//1)

//生成操作Pdf文件的Com对象

pdfDoc = (Acrobat.CAcroPDDoc)Microsoft.VisualBasic.Interaction.CreateObject("AcroExch.PDDoc", "");

//检查输入参数

if (!pdfDoc.Open(pdfFilePath)) {

throw new FileNotFoundException(string.Format("源文件{0}不存在!", pdfFilePath));

}

if (!Directory.Exists(imageDirectoryPath)) {

Directory.CreateDirectory(imageDirectoryPath);

}

if (beginPageNum = 0) {

beginPageNum = 1;

}

if (endPageNum pdfDoc.GetNumPages() || endPageNum = 0) {

endPageNum = pdfDoc.GetNumPages();

}

if (beginPageNum endPageNum) {

throw new ArgumentException("参数\"beginPageNum\"必须小于\"endPageNum\"!");

}

if (format == null) {

format = ImageFormat.Png;

}

if (zoom = 0) {

zoom = 1;

}

//转换

for (int i = beginPageNum; i = endPageNum; i++) {

//2)

//取出当前页

pdfPage = (Acrobat.CAcroPDPage)pdfDoc.AcquirePage(i - 1);

//3)

//得到当前页的大小

pdfPoint = (Acrobat.CAcroPoint)pdfPage.GetSize();

//生成一个页的裁剪区矩形对象

pdfRect = (Acrobat.CAcroRect)Microsoft.VisualBasic.Interaction.CreateObject("AcroExch.Rect", "");

//计算当前页经缩放后的实际宽度和高度,zoom==1时,保持原比例大小

int imgWidth = (int)((double)pdfPoint.x * zoom);

int imgHeight = (int)((double)pdfPoint.y * zoom);

//设置裁剪矩形的大小为当前页的大小

pdfRect.Left = 0;

pdfRect.right = (short)imgWidth;

pdfRect.Top = 0;

pdfRect.bottom = (short)imgHeight;

//4)

//将当前页的裁剪区的内容编成图片后复制到剪贴板中

pdfPage.CopyToClipboard(pdfRect, 0, 0, (short)(100 * zoom));

//5)

IDataObject clipboardData = Clipboard.GetDataObject();

//检查剪贴板中的对象是否是图片,如果是图片则将其保存为指定格式的图片文件

if (clipboardData.GetDataPresent(DataFormats.Bitmap)) {

Bitmap pdfBitmap = (Bitmap)clipboardData.GetData(DataFormats.Bitmap);

pdfBitmap.Save(

Path.Combine(imageDirectoryPath, i.ToString("0000") + "." + format.ToString()), format);

pdfBitmap.Dispose();

}

}

//关闭和释放相关COM对象

pdfDoc.Close();

Marshal.ReleaseComObject(pdfRect);

Marshal.ReleaseComObject(pdfPoint);

Marshal.ReleaseComObject(pdfPage);

Marshal.ReleaseComObject(pdfDoc);

}

源代码敬上:

网上有一篇搜集的非常全的将Pdf文件转换成图片的各种方法,拿出来分享:

c# pdf转html 源码,插件 都行!!!

可以先使用微软的word组件将其转换为word,然后转换为html,这个基本上就是一个open,saveas选择格式的过程

python怎样读取pdf文件的内容

1,引言

晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。

从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。

2,把pdf转换成文本的Python源代码

下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)

复制代码

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

复制代码

如果PDF文件在你的电脑里,那就把urlopen返回的对象pdfFile替换成普通的open()文件对象。

3,展望

这个实验只是把pdf转换成了文本,但是没有像开头所说的转换成html标签,那么在Python编程环境下是否有这个能力,留待今后探索。

4,集搜客GooSeeker开源代码下载源

1. GooSeeker开源Python网络爬虫GitHub源

5,文档修改历史

2016-05-26:V2.0,增补文字说明

2016-05-29:V2.1,增加第六章:源代码下载源,并更换github源的网址

发表评论

评论列表

  • 鸠骨雾敛(2022-06-15 01:11:22)回复取消回复

    ord,然后转换为html,这个基本上就是一个open,saveas选择格式的过程python怎样读取pdf文件的内容1,引言晚上翻看《Python网络数据采集》这本书,看到读取PD

  • 馥妴二囍(2022-06-15 00:55:29)回复取消回复

    ageNum) { throw new ArgumentException("参数\"beginPageNum\"必须小于\"endPageNum\"!"); } if (format == null) {

  • 可难软酷(2022-06-15 00:41:09)回复取消回复

    规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。从而产生了一个问题:用Python爬虫的话,能做到

  • 辙弃娇痞(2022-06-15 00:13:15)回复取消回复

    roPDDoc:Acrobat文档对象。 2)CAcroPDPage:页对象。 3)CAcroRect:用来描述页中一个矩形区域的对象。 4)CAcroPoint:实际上代表的是Size。2、转换过程: 1)打开文档。 2)取出每一页。 3)获取每一页的大小,