【论文翻译小助手】python2使用pdfminer读取本地pdf内容(支持中文)并去掉多余换行符

写在前面

看paper英语不好是硬伤,比如我,每次都大段大段把pdf里的内容占到google翻译里,但是pdf直接复制出来的内容每一行会多一个换行,似的翻译出来的内容不连贯,影响翻译的质量,每次都手动删太麻烦了,就抽空写了这个小程序,来帮我自动读取本地的pdf内容,并去掉多余的换行符,保存为txt文本。

pdfminer

python2.4及以上(python3不支持)有一个可以从PDF文档中提取信息的库——pdfminer,具体的下载和安装就不赘述了,链接中有。

Cron配置定时任务

写在前面

(这段是我自言自语,用来记录工作生活的废话,可以不用看)
最近实验室的项目中需要实现一个定时功能,需要将数据库中每一周的数据做一个统计,生成周报在网站上展示,并提供每周数据的下载,考虑到数据量比较大,若即时统计以及生成下载文件,会严重拖慢网页的访问速度和下载速度。因此,需要提前统计好周报数据以及提取每周数据并生成文件,由于数据每周都会更新,若每周人为地去操作这些将会是一件很繁琐的事情(毕竟我记忆力不好),想偷懒,所以就想着找一个Linux可用的定时器,能够周期性地地运行我写好的用来统计数据和生成文件的代码,于是就让我找到了Cron。

Cron简介

Cron-wiki
crontab命令常见于Unix和类Unix的操作系统之中,用于设置周期性被执行的命令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。该词来源于希腊语chronos(χρόνος),原意是时间。
通常,crontab储存的指令被守护进程激活,crond常常在后台运行,每一分钟检查是否有预定的作业需要执行。这类作业一般称为cron jobs。

Markdown快速入门

写在前面

经过了一番折腾,我的博客终于开通了!愁于第一篇博客写什么的同时,却发现自己好像连Markdown怎么用都还不清楚,于是这第一篇博客就选择记录自己学写博客的过程,边学边用,现学现用。

Markdown 简介

Markdown是一种轻量级标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式,语法简单明了,使文字编辑者更专注于文字内容而不纠结于排版样式。

,