任务2.1 文本素材的获取和加工

2017/4/8 10:33:49人浏览

文本素材是指以文字为媒介的素材,是承载和传递教学信息的主要方式,主要包括字母、数字和符号等形式,一般分为纯文本和图形文本。纯文本是指没有任何文本格式或排版信息的文本内容,如果包含文本格式或排版信息,则称为格式化文本。图形文本从严格意义上讲,属于图形类文件,一般通过利用图像处理软件制作而成,它可以进行特殊效果处理(如透明字、立体字、渐变字等),且显示不受字库、文本样式等因素制约。

2.1.1文本素材的常见格式

1.TXT格式

Windows附件中记事本的存储文件格式,属于最原始的文本格式,不包括任何控制符和格式化信息。

2.DOC或DOCX格式

Word的存储文件格式,DOC2007以下版本使用的格式。

3.RTF格式

RTF是Rich Text Format的缩写,意思是丰富的文本格式,是Windows附件中记事本的存储文件格式,主要用于各种文字处理软件之间的文本交换。

4.WPS格式

WPS软件的存储文件格式。

5.HTML格式

超文本标记语言(Hypertext Markup Language)文件,即网页文件格式。HTML是一种描述文档结构的语言,但不能描述实际的表现形式。

此外,还有使用专门阅读器才能阅读的文本本件,如CAJPDF等。

2.1.2文本素材的获取

1.键盘输入

键盘输入是最常见的文本获取方法,通过各种文字处理软件(如记事本、写字板、Word等),可输入各种文字、符号、字母等。

2.手写输入

手写输入方式的使用必须先安装手写板的驱动程序(一般软硬件配套),然后使用手写笔在手写板上像平常一样写字,即可进行文字的录入工作。这种输入方法使用户能按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。它的缺点是字体和字迹不能太潦草或太多的连笔,否则会影响文字识别的准确度。

3.语音输入

语音输入法,是以语音方式进行输入的方法。无论键盘还是手写,均有各种限制,语音输入将成为主流输入法,更受欢迎。目前市面上较流行的语音输入法有讯飞输入法、谷歌语音输入法、百度语音输入法、云龙语音输入法,等等。

讯飞输入法,是由科大讯飞推出的一款输入软件,集语音、手写、拼音、笔画、双拼等多种输入方式于一体。其语音输入目前被认为是语音输入界的领导者,不仅支持粤语、英语、普通话识别,还支持客家话、四川话、河南话、东北话、天津话、上海话等方言识别,独家推出离线语音功能,语音识别率超过95%

4.扫描输入

如果需要获取已有的印刷品上的文字材料,可采用扫描输入。扫描输入的核心的光学字符识别软件(Optical Character Recognition ,OCR,用于对扫描仪输入的文字进行判断,将扫描后的文字图像转换成文本格式文件。目前,光学字符识别软件对英文识别率可达90%以上,中文识别率可达85%以上。主流文字识别软件有尚书OCR、汉王OCR、紫光OCR等。此外,当前市场上出现的各种扫描笔(又称卫星扫面议)的原理也基于此项技术。

2.1.3文本素材的加工工具

1.文字处理软件

常用的文字处理软件有WordWPS、记事本、写字板。

2.多媒体开发软件

一般的多媒体开发工具,如PowerjpointAuthorware等都包含文字制作工具。

3.图像处理软件

一般的图像处理软件,如PhotoshopCoreldrawFirework等都包含文字制作工具,可利用这些软件制作图形文本。