写了一个图书馆学位论文下载脚本，有版权问题吗？

[复制链接] 分享：

楼主

rushsaker [离线]

pkurs

2.6主序星

发帖数：71 原创分：0

<ASCIIArt> 1楼

如题，正在看几年前毕业师兄的论文，手动拖拽一页一页的看太麻烦了。就写了一个python脚本，一口气全下下来了，不过下载下来的是图片格式，然后用acrobat合并成pdf，没有目录结构，但是起码可以打印一下。

owl owl owl

发表于2021-06-30 13:35:27

楼主

rushsaker [离线]

pkurs

2.6主序星

发帖数：71 原创分：0

<ASCIIArt> 2楼

python脚本，仅需要提供论文信息页即可...

Git地址：https://github.com/rushsaker/PKULTD.git

rushsaker (pkurs) 在 ta 的帖子中提到：

owl owl owl

发表于2021-06-30 13:53:36

楼主

rushsaker [离线]

pkurs

2.6主序星

发帖数：71 原创分：0

<ASCIIArt> 3楼

import os

import re

import time

import datetime

import requests

from urllib.request import urlretrieve

from selenium import webdriver

from selenium.webdriver.support.select import Select

from selenium.webdriver.common.action_chains import ActionChains

driver = webdriver.Chrome()

#论文链接

thsis_url="https://thesis.lib.pku.edu.cn/docinfo.action?id1=56b030af6d7a0e566009fa151cc9a83d&id2=KhhPjCdEGOQ%253D"

driver.get(thsis_url)

driver.refresh()

time.sleep(2)

lookbut = driver.find_element_by_link_text('查看全文')

lookbut.click()

handles = driver.window_handles

driver.switch_to_window(handles[1])

time.sleep(2)

#获取总页数

tpage=driver.find_element_by_css_selector('span#totalPages.toolbar-page-num')

total_pages=int(re.sub("\D","",tpage.get_attribute("innerText")))

print('本论文总页数为：%d 页'%(total_pages))

total_pages=int(total_pages)

#下载论文

os.makedirs('./thsis_image/', exist_ok=True)

find_page=False

while i<total_pages:

div_name='div#loadingBg%d.loadingbg > img'%(i)

pics = driver.find_element_by_css_selector(div_name)

find_page=True

img_url=pics.get_attribute('src')

except:

find_page=False

if find_page:

print('找到第%d页...'%(i+1))

#print(img_url)

i=i+1

urlretrieve(img_url, './thsis_image/img%d.jpg'%(i))

else:

btnext=driver.find_element_by_css_selector('a#btnnext.toobar-btn.toobar-btn-next')

btnext.click()

time.sleep(0.5)

print('文章下载完成！')

rushsaker (pkurs) 在 ta 的帖子中提到：

owl owl owl

写了一个图书馆学位论文下载脚本，有版权问题吗？

写了一个图书馆学位论文下载脚本，有版权问题吗？

Recommend

泸州老窖股东大会：稳中求进

命运多舛的明秀路又又又封一大段了

城市与环境学院(Urban)

发售半年后我终于抢到RTX 3070了，你们觉得值不值得买？

东亭广电B地块公示了

丰田作死啊内燃机时代快结束了出涡轮了。

我发现了，搞垮身体的五种坐姿”每一个都是我的最爱

【“屁胡杯”雀魂雀力鉴定大赛】参赛雀魂账号确认

286天，在这一刻，结束了

Index of /~srk31/software

About Joyk