Računala Windows Internet

Formati tekstualnih datoteka i programi za rad s njima: povijest i naši dani. Proširenje tekstualne datoteke: vrste i osnovni aspekti utvrđivanja pripadnosti programima

Skup pravila po kojima se podaci pohranjuju u datoteci naziva se format datoteke. Različite vrste datoteke kao što su tekstualne datoteke, bitmap grafike itd., koriste različite formate. Općenito, nekoliko različitih formata može se definirati za istu vrstu datoteke, iako se često smatra da su vrsta datoteke i format ista stvar. Format datoteke identificira se nastavkom naziva datoteke koja se dodaje imenu datoteke kada se sprema u određenom formatu, kao što su DOC, GIF i tako dalje.

Obično se formati datoteka kreiraju za korištenje u dobro definiranom aplikacijskom programu. Na primjer, grafički objekti stvoreni u dobro poznatom paketu vektorska grafika CorelDRAW se spremaju kao CDR datoteke, dok se slike prikazane pomoću drugog grafičkog paketa, CorelXara, zapisuju na disk kao XAR datoteke. Neki formati nisu povezani s određenim aplikacijama, odnosno univerzalni su. Jedan od najpoznatijih univerzalni formati je TXT format (format tekstualne datoteke DOS).

Kompresija računalnih datoteka često se koristi za uštedu prostora za pohranu. Postoji mnogo načina komprimiranja datoteka. Ove metode ovise o izvornom formatu datoteke. Općenito, što je veći omjer kompresije, sporije su operacije čitanja i pisanja.

Što se tiče algoritama kompresije, postoje i algoritmi kompresije bez gubitaka i algoritmi koji mogu uzrokovati gubitak podataka.



Kompresija bez gubitaka osigurava da svi podaci koji su bili u datoteci prije kompresije budu prisutni nakon dekomprimiranja datoteke. Mehanizmi kompresije bez gubitaka koriste se prilikom pohranjivanja tekstualnih ili numeričkih podataka kao što su proračunske tablice ili datoteke dokumenata. Primjeri algoritama kompresije bez gubitaka su dobro poznati ZIP, ARJ i drugi.

dajmo Kratki opis glavni korišteni formati:

§ Američki standardni kod za razmjenu informacija ASCII (TXT). Format tekstualne datoteke koju je razvio Američki nacionalni institut za standarde. Podržani od svih operativni sustavi i svi programi. To je tekstualna datoteka u DOS-kodiranju, nema funkcije za umetanje slike, nema formatiranja, radi na svim strojevima, moguće je kreirati samo male datoteke.

§ ANSI (TXT). Format tekstualnih datoteka u ANSI kodiranje(za kodnu stranicu Microsoft Windows)

§ MsWord za DOS, Windows (.DOC). Format dokumenta, koji je razvila Microsoft Corporation, podržavaju MS-DOS programi i većina procesora teksta. Čuva izvorno oblikovanje dokumenta, kao i stilove znakova. Osim tekstualnih informacija, datoteke ovog formata mogu sadržavati grafičke slike s različitim parametrima. Podržava 256 boja. Ne podržava kompresiju. Uglavnom se koristi za razmjenu formatiranih tekstualnih podataka između različitih platformi i aplikacija.

Jezik za označavanje hiperteksta HTML (HTM, HTML). Označni jezik za hipertekstualne dokumente. Sve stranice na Internetu izrađene su pomoću ovog posebnog jezika. HTML dokumenti su ASCII datoteke koje svatko može pregledavati i uređivati. uređivač teksta... Razlika od obične tekstualne datoteke je u tome što HTML dokumenti sadrže posebne naredbe oznaka koje definiraju pravilo za formatiranje dokumenta. Ako ste savladali HTML jezik, tada možete kreirati stranice za Internet. Dodavanjem oznaka (oznaka) običnom tekstu prisiljavate gledatelja da prikaže taj tekst na određeni način i postavi slike na stranicu. Ako ste naučili Javu i JavaScript, znate kako proširiti snagu HTML-a stavljanjem naredbi za skriptiranje unutar oznaka.

§ Portable Document Format PDF (.PDF). Ovaj format za pohranu dokumenata, koji je razvio Adobe, tvrdi da je otvoreni tipografski standard za web. Smatra se alternativom HTML-u. Nedostatak HTML-a je u tome što dokumenti prevedeni u HTML obično ne zadržavaju svoj izvorni format, a HTML nudi vrlo ograničen broj slova prilikom gledanja. Nasuprot tome, korisnici Acrobat i PDF alata za stvaranje, distribuciju i pregled dokumenata u njihovom izvornom formatu znaju da će čitatelji vidjeti publikaciju točno onakvu kakvu je napravljena. PDF format nezamjenjiv ako želite dobiti točna kopija potrebni dokument. Kao primjer uspješne upotrebe PDF-a za dokumente na ruskom jeziku, navedimo poslužitelj "Moscow News" na Internetu. Predstavljen na njemu u u elektroničkom formatu materijali u potpunosti ponavljaju papirnati izvornik, tiskan tipografskom metodom.

§ Standardni generalizirani jezik za označavanje (SGML). Evolucija HTML-a prevedena je kao standardni generički jezik za označavanje. To je skup alata mehanizama za stvaranje strukturiranih dokumenata, označenih deskriptorima (tagovima). U usporedbi s HTML-om, nudi fleksibilnije i svestranije opcije oblikovanja na webu. Međutim, SGML je također brži, pa se PDF koristi kao jednostavniji alat. Snaga SGML-a leži u njegovom višeplatformskom strukturiranom pristupu opisivanju sadržaja dokumenata. SGML je zapravo metajezik, t.j. namijenjen je opisu označnih jezika koji se koriste pri izradi dokumenata.

Svaki korisnik osobnog računala stalno se susreće s raznim formatima tekstualnih datoteka, ali ne razmišlja o tome koliko je bogata povijest ovih formata i programa, koji su dali čovjeku mogućnost čitanja knjiga, rada s tekstom i izrade svu potrebnu dokumentaciju izravno na Računalo.

Povijest tekstualnih datoteka nije mnogo mlađa od njih samih osobnih računala- već su njihova remek-djela zapisana u prvim analozima moderne "bilježnice". Dakle, koji su formati tekstualnih datoteka i programa za rad s njima? Prvo morate razumjeti čemu služe tekstualne datoteke, koje su razlike između njih i što im je zajedničko. Ujedinjuje apsolutno sve tekstualne formate, njihov glavni zadatak je očuvanje tekstualnih informacija. Razlikuju se po mogućnostima obrade i pristupu informacijama pohranjenim u datotekama u smislu kompatibilnosti s drugim programima.

Tradicionalno, najjednostavniji tekstualni format je TXT format. Također je najskromniji u značajkama i najstariji tekstualni format. Zbog svoje jednostavnosti (mogućnosti TXT-a su ograničene na tipkanje i razbijanje u odlomke), ovaj format često koristi veliki broj aplikacija i programa na raznim platformama.

S proliferacijom osobnih računala i povećanjem njihove prodaje, Microsoft stvara još jedan popularan format nazvan Rich Text Format (ili jednostavno RTF). Riječ je o tekstu koji je označen određenim "kontrolnim riječima" koje omogućuju ne samo izradu, već i spremanje složenih elemenata oblikovanja te umetanje formula, tablica, slika, zaglavlja i podnožja i fusnota u tekst.

Međutim, RTF je prilično inferioran u mogućnostima u odnosu na DOC format, koji je također kreirao Microsoft posebno za softverski paket tzv. Microsoft Office... Nastao prije više od petnaest godina, DOC uključuje ogroman broj opcija za formatiranje i obradu teksta, stvaranje, uređivanje i postavljanje slika, grafikona, tablica i drugih elemenata. Treba napomenuti da će ove funkcije najispravnije raditi samo u MS Wordu. To je prvenstveno zbog činjenice da Microsoft nema trenutne specifikacije za DOC format i ne dopušta svojim konkurentima i neovisnim programerima da u potpunosti iskoriste mogućnosti ovog formata. Upravo je ta činjenica jedan od glavnih razloga što se, osim DOC formata, u naše vrijeme naširoko koriste i drugi formati tekstualnih datoteka.

Glavna razlika između DOC formata i teksta i TXT-a je njegova binarna priroda, zbog čega postaje nečitljiv u jednostavnim formatima kao što su Wordpad, Lexicon, Atlantis. Štoviše, u nekim slučajevima možete primijetiti nekompatibilnost DOC datoteka stvorenih u različitim verzijama MS Worda.

Formati tekstualnih datoteka mogu se otvarati i uređivati ​​u velikom broju programa. Uz prethodno spomenuti MS Word, najčešći su StarOffice iz Sun Microsystemsa, WordPerfect iz Corela i besplatni paket OpenOffice.org.

S proliferacijom elektroničkih uređaja za čitanje, drugi formati tekstualnih datoteka postaju sve popularniji, na primjer, FB2 i LRF.

Kako bi mogli koristiti različite tekstualni formati na različitim platformama stvoren je veliki broj programa koji se nazivaju pretvarači. Pretvarači tekstualnih datoteka omogućuju vam spremanje izvornog teksta iz jednog formata u drugi i korištenje kasnije različitih uređaja i platforme.

Pretvarači se koriste ne samo za spremanje teksta iz jednog formata u drugi, već i za stvaranje datoteka koje se, za razliku od svojih izvora, mogu koristiti na uređajima koji nisu u stanju "čitati" izvorne datoteke. Na primjer, neki elektronske knjige koji ne podržavaju popularne formate tekstualnih datoteka, mogu lako prepoznati LRF ili FB2 formate dobivene iz izvornih datoteka pomoću programa za pretvorbu.


Zašto vam treba tekst?

Danas postoje tri najčešća formata teksta - TXT, RTF i DOC. Koja je njihova razlika i što ih spaja? Imaju jedno zajedničko: svi se drže tekstualne informacije... Razlika je u tome koje mogućnosti oblikovanja i obrade teksta pružaju, kao i koliko su dostupne informacije koje posjeduju u pogledu kompatibilnosti programa.

Najjednostavniji tekstualni format

Najstariji i najskromniji format u pogledu značajki. Sve što možete učiniti s tekstom u ovom formatu jest napraviti vlastiti unos teksta i spremiti prijelome pasusa. Ova jednostavnost u određenim situacijama poprima važnost svestranosti i transparentnosti: TXT je lako čitljiv u različitim aplikacijama i na različitim platformama. Osim toga, mnogi programi koji nemaju niti svoju neposrednu zadaću rada s tekstom mogu spremati tekst u TXT formatu.

TXT procesori

Još od vremena DOS-a, mnogi se sjećaju procesora teksta Lexicon, koji je bio u stanju prilično podnijeti TXT format visoka razina... Danas je glavni alat za rad s TXT standardom Windows Notepad... Svatko kome njegove funkcije nisu dovoljne, uvijek može pronaći urednika za svoj ukus i potrebe svjetska mreža, uključujući i besplatne. Na primjer, koristeći besplatni program Vega Konstantina Šeremetjeva, malo je vjerojatno da ćete vidjeti poruku da je otvorena tekstualna datoteka prevelika; prema autorovim uvjeravanjima, Vega verzija 2.04 otvara datoteke do 2 Gb (!), a sam program zauzima samo 9,5 kb (usporedite, Notepad u sustavu Windows XP "teži" oko 65 kb); u isto vrijeme Vega je još praktičnija od Notepada i ne zahtijeva instalaciju. A evo još jednog primjera mogućnosti obrade " običan tekst". Tekst koji čitate upisan je u UltraEdit procesoru tvrtke IDM Computer Solutions. Njegova jača strana je poseban prikaz i obrada sintakse programskih jezika, ali čak i s najjednostavnijim tekstom može činiti čuda. Poznavatelji praktičnih rusificiranih programa, ergonomski i, što je najvažnije, "koji znaju puno" o specifičnostima ćiriličnih kodiranja, trebali bi se upoznati s programom Patriot.

Formatiranje i svestranost

Format obogaćenog teksta - ovako stoji kratica u nazivu formata koji je kreirao Microsoft. RTF je tekst označen posebnim "kontrolnim riječima", što vam omogućuje izvođenje i spremanje prilično složenog oblikovanja, umetanje fusnota, zaglavlja i podnožja, slika, tablica i formula, iako je u obradi ovih dodatnih objekata RTF inferiorniji u odnosu na DOC format. Inferioran je u odnosu na DOC u veličini datoteka: korištenje "kontrolnih riječi" za oblikovanje teksta umjesto stilskog lista ne dovodi do kompaktnosti. Međutim, RTF dobiva sigurnosni spor s DOC-om jer njegova unutarnja organizacija ne omogućuje pohranjivanje makrokoda i stoga je imuna na makro viruse.

RTF procesori

RTF se koristi kao primarni ili podržani format u mnogim, ako ne i većini programa za obradu teksta. Dobar alat može biti, na primjer, Hijeroglif Mihaila Morozova. Ovaj program implementira ne samo provjeru pravopisa ruskog jezika, već i funkciju automatske promjene jezičnog rasporeda tipkovnice. Atlantis program za obradu teksta tvrtke Rising Sun Solutions, koji postoji iu komercijalnim i besplatne verzije, zasigurno će odgovarati mnogim korisnicima s promišljenošću sučelja, prisutnošću velikog broja prečaci, zamjenjivu alatnu traku i druge funkcije. Već spomenuti urednik Patriot također može raditi s RTF-om.

"Najveći" tekstualni format

DOC format uključuje najopsežnije mogućnosti obrade i oblikovanja teksta, uključujući stvaranje fusnota i komentara, kao i mogućnost stvaranja, postavljanja i uređivanja tablica, grafikona, slika i drugih elemenata. Istina, u potpunosti i najispravnije sve ove značajke implementirane su samo u MS Wordu, što je olakšano stavom Microsofta, koji ne otkriva trenutne specifikacije popularnog formata. Unatoč činjenici da DOC "razumiju" i drugi programi, njihovi proizvođači nisu uvijek u mogućnosti osigurati njegovo ispravno prepoznavanje. Za razliku od TXT-a i RTF-a, DOC je binarni format, što ga čini nečitljivim u jednostavnim uređivačima teksta i, štoviše, ne pruža potpunu kompatibilnost vlastitih verzija.

DOC procesori

Glavni i, s obzirom na gore navedene razloge, "nezamjenjiv" procesor teksta za rad s DOC-om je MS Word, koji najpotpunije implementira sve mogućnosti ovog formata. Mnogo je produktivnosti i funkcionalnosti dodano Wordu razvojem trećih strana - sve vrste dodataka, makronaredbi i programa postoje u velikim količinama u prostranstvu mreže. Konkurencija osigurava WordPerfect iz Corela, StarOffice iz Sun Microsystemsa i besplatni OpenOffice.org, na primjer. Kada radite u Wordu i drugim programima, trebali biste biti svjesni problema kompatibilnosti formata i spremiti dokument u DOC samo ako ste sigurni da neće doći do nekompatibilnosti.

Primjenjivost formata

Nerazumno je tvrditi da je jedan od razmatranih formata lošiji od ostalih, ne uzimajući u obzir osobitosti zadataka za čije bi se rješavanje trebali koristiti. Budući da sebi nećemo zadati zadatak pisanja u program za obradu teksta, izbor je gotovo nedvosmislen. Za pripremu volumena teksta od srednje do vrlo velike i za pružanje "potpunog razumijevanja" upisanog bilo kojim programom za slaganje, čini se najprikladnijim koristiti najjednostavniji, najkompaktniji i svestraniji način tipkanja i pohranjivanja teksta - TXT format. Što se tiče korištenja drugih tekstualnih formata u layoutu, puno ovisi o implementaciji njihove podrške u određenom layout programu.
OpenOffice.org je međunarodni open source projekt čiji je cilj stvaranje univerzalnog uredsko odijelo djelujući na različitim operativnim platformama, imajući otvoreni API i format datoteke koji se temelji na XML-u. U osnovi, OpenOffice.org je skup programa razvijenih unutar ovog projekta... Uključuje: program za obradu teksta, proračunske tablice, grafički uređivač, prezentacijski sustav i sustav za pristup podacima. U pogledu svojih mogućnosti, usporediv je sa sličnim komercijalnim programima i može se smatrati alternativom njima. OpenOffice.org trenutno ima dvostruku licencu pod GPL i SISSL. Unatoč razlikama u ovim licencama, OpenOffice.org je besplatan za krajnjeg korisnika.

OpenOffice.org svoje podrijetlo vuče iz uredskog paketa StarOffice, koji je razvila njemačka tvrtka StarDivision sredinom 1990-ih. U jesen 1999. Sun je preuzeo StarDivision. U lipnju 2000., već pod zaštitnim znakom Sun, StarOffice 5.2 izašao je za MS Windows, Linux i Solaris. Dana 13. listopada 2000. StarOffice je bio otvorenog koda (isključujući neke module treće strane) i službeno je rođendan OpenOffice.org. Danas i volonteri iz cijelog svijeta i Sun programeri rade na OpenOffice.org kodu.

Trenutno od jednog izvorni kod, koju je razvila zajednica OpenOffice.org, objavljena su dva proizvoda: StarOffice, koji dodaje komponente pod vlasničkom licencom, i besplatni OpenOffice.org. U OpenOffice.org, većina vlasničkih komponenti pronađenih u StarOfficeu zamijenjena je njihovim besplatnim kolegama.

(Prema informacijama cnews.ru.)