Računalniki Windows internet

Formati besedilnih datotek in programi za delo z njimi: zgodovina in naši dnevi. Razširitev besedilne datoteke: vrste in osnovni vidiki ugotavljanja pripadnosti programom

Nabor pravil, po katerih so podatki shranjeni v datoteki, se imenuje format datoteke. Različne vrste datoteke, kot so besedilne datoteke, bitne grafike itd., uporabljajo različne formate. Na splošno je za isto vrsto datoteke mogoče definirati več različnih formatov, čeprav se pogosto razumeta, da sta vrsta in oblika datoteke ista stvar. Oblika datoteke je identificirana s pripono imena datoteke, ki je dodana imenu datoteke, ko je shranjena v določeni obliki, kot so DOC, GIF itd.

Običajno so formati datotek ustvarjeni za uporabo v dobro definiranem aplikacijskem programu. Na primer, grafični predmeti, ustvarjeni v dobro znanem paketu vektorska grafika CorelDRAW se shrani kot datoteke CDR, slike, upodobljene z drugim grafičnim paketom, CorelXara, pa so zapisane na disk kot datoteke XAR. Nekateri formati niso povezani s posebnimi aplikacijami, torej so univerzalni. Eden najbolj znanih univerzalni formati je format TXT (format besedilne datoteke DOS).

Stiskanje računalniških datotek se pogosto uporablja za prihranek prostora za shranjevanje. Obstaja veliko načinov stiskanja datotek. Te metode so odvisne od izvirni format datoteke. Na splošno velja, da višje ko je razmerje stiskanja, počasnejši so postopki branja in pisanja.

Kar zadeva algoritme stiskanja, obstajajo tako algoritmi stiskanja brez izgub kot algoritmi, ki lahko povzročijo izgubo podatkov.



Stiskanje brez izgub zagotavlja, da so vsi podatki, ki so bili v datoteki pred stiskanjem, prisotni po razpakiranju datoteke. Mehanizmi stiskanja brez izgub se uporabljajo pri shranjevanju besedilnih ali številskih podatkov, kot so preglednice ali dokumentne datoteke. Primeri algoritmov stiskanja brez izgub so dobro znani ZIP, ARJ in drugi.

dajmo Kratek opis glavni uporabljeni formati:

§ Ameriška standardna koda za izmenjavo informacij ASCII (TXT). Oblika besedilne datoteke, ki jo je razvil ameriški nacionalni inštitut za standarde. Podprti vsi operacijski sistemi in vsi programi. Je besedilna datoteka v DOS-kodiranju, ni funkcije za vstavljanje slike, ni formatiranja, deluje na vseh strojih, mogoče je ustvariti samo majhne datoteke.

§ ANSI (TXT). Oblika besedilnih datotek v ANSI kodiranje(za kodno stran Microsoft Windows)

§ MsWord za DOS, Windows (.DOC). Format dokumenta, ki ga je razvila Microsoft Corporation, podpirajo programi MS-DOS in večina urejevalnikov besedil. Ohrani izvirno oblikovanje dokumenta in sloge znakov. Poleg besedilnih informacij lahko datoteke te oblike vsebujejo grafične slike z različnimi parametri. Podpira 256 barv. Ne podpira stiskanja. Uporablja se predvsem za izmenjavo formatiranih besedilnih podatkov med različnimi platformami in aplikacijami.

Hypertext Markup Language HTML (HTM, HTML). Označevalni jezik za hiperbesedilne dokumente. Vse strani na internetu so ustvarjene s tem posebnim jezikom. Dokumenti HTML so datoteke ASCII, ki si jih lahko ogleda in ureja vsak. urejevalnik besedil... Razlika od običajne besedilne datoteke je v tem, da dokumenti HTML vsebujejo posebne ukaze oznak, ki določajo pravilo za oblikovanje dokumenta. Če obvladate jezik HTML, lahko ustvarite strani za internet. Z dodajanjem oznak (oznak) navadnemu besedilu prisilite gledalca, da to besedilo prikaže na določen način in postavi slike na stran. Če ste se naučili Jave in JavaScripta, veste, kako razširiti moč HTML-ja z vstavljanjem skriptnih ukazov v oznake.

§ Portable Document Format PDF (.PDF). Ta format za shranjevanje dokumentov, ki ga je razvil Adobe, trdi, da je odprt tipografski standard za splet. Videti je kot alternativo HTML. Pomanjkljivost HTML-ja je v tem, da dokumenti, prevedeni v HTML, običajno ne ohranijo svoje prvotne oblike, HTML pa ponuja zelo omejeno število pisav pri ogledu. Nasprotno pa uporabniki orodij Acrobat in PDF za ustvarjanje, distribucijo in ogled dokumentov v izvirni obliki vedo, da bodo bralci videli publikacijo točno takšno, kot je bila narejena. format PDF nenadomestljiv, če hočeš dobiti natančna kopija zahtevani dokument. Kot primer uspešne uporabe PDF-ja za dokumente v ruščini naj navedemo strežnik "Moscow News" na internetu. Predstavljeno na njem v v elektronski obliki materiali v celoti ponavljajo papirnati izvirnik, natisnjen s tipografsko metodo.

§ Standardni generalizirani označevalni jezik (SGML). Razvoj HTML je preveden kot standardni generični označevalni jezik. Je zbirka orodij za ustvarjanje strukturiranih dokumentov, označenih z deskriptorji (oznaki). V primerjavi s HTML ponuja bolj prilagodljive in vsestranske možnosti oblikovanja na spletu. Vendar je SGML tudi hitrejši, zato se PDF uporablja kot enostavnejše orodje. Moč SGML je v njegovem večplatformskem strukturiranem pristopu k opisovanju vsebine dokumentov. SGML je pravzaprav metajezik, t.j. je namenjen opisu označevalnih jezikov, ki se uporabljajo pri ustvarjanju dokumentov.

Vsak uporabnik osebnega računalnika se nenehno srečuje z različnimi formati besedilnih datotek, vendar skoraj ne razmišlja o tem, kako bogata je zgodovina teh formatov in programov, ki so dali človeku možnost branja knjig, dela z besedilom in ustvarjanja vso potrebno dokumentacijo neposredno na računalnik.

Zgodovina besedilnih datotek ni veliko mlajša od njih samih osebni računalniki- že njihove mojstrovine so bile zapisane v prvih analogih sodobnega "beležnice". Kakšni so torej formati besedilnih datotek in programov za delo z njimi? Najprej morate razumeti, čemu služijo besedilne datoteke, kakšne so razlike med njimi in kaj imajo skupnega. Združuje absolutno vse besedilne formate, njihova glavna naloga je ohraniti besedilne informacije. Razlikujejo se po zmožnostih obdelave in tudi po dostopu do informacij, shranjenih v datotekah, glede združljivosti z drugimi programi.

Tradicionalno je najpreprostejši format besedila format TXT. Je tudi najbolj skromen po lastnostih in najstarejši format besedila. Zaradi svoje preprostosti (zmožnosti TXT so omejene na tipkanje in razčlenjevanje na odstavke) ta format pogosto uporablja ogromno aplikacij in programov na različnih platformah.

S širjenjem osebnih računalnikov in povečanjem njihove prodaje Microsoft ustvarja še eno priljubljeno obliko, imenovano Rich Text Format (ali preprosto RTF). To je besedilo, ki je označeno z določenimi "kontrolnimi besedami", ki omogočajo ne samo izdelavo, temveč tudi shranjevanje kompleksnih oblikovnih elementov in vstavljanje formul, tabel, številk, glav in nog ter opomb v besedilo.

Vendar je RTF po zmogljivostih precej slabši od formata DOC, ki ga je prav tako ustvaril Microsoft posebej za programski paket, imenovan Microsoft Office... DOC, ki je nastal pred več kot petnajstimi leti, vključuje ogromno možnosti za oblikovanje in obdelavo besedila, ustvarjanje, urejanje in postavitev slik, grafikonov, tabel in drugih elementov. Treba je opozoriti, da bodo te funkcije najbolj pravilno delovale le v MS Wordu. To je predvsem posledica dejstva, da Microsoft nima trenutnih specifikacij za format DOC in svojim konkurentom in neodvisnim razvijalcem ne dovoljuje, da bi v celoti izkoristili zmogljivosti tega formata. Prav to dejstvo je eden od glavnih razlogov, da se v našem času poleg formata DOC pogosto uporabljajo tudi drugi formati besedilnih datotek.

Glavna razlika med formatom DOC in besedilom ter TXT je njegova binarna narava, zaradi česar postane neberljiv v tako preprostih, kot so Wordpad, Lexicon, Atlantis. Poleg tega lahko v nekaterih primerih opazite nezdružljivost datotek DOC, ustvarjenih v različnih različicah MS Word.

Formate besedilnih datotek je mogoče odpreti in urejati v velikem številu programov. Poleg prej omenjenega MS Worda so najpogostejši StarOffice iz Sun Microsystems, WordPerfect iz Corel in brezplačen paket OpenOffice.org.

S širjenjem elektronskih bralnih naprav postajajo vse bolj priljubljeni drugi formati besedilnih datotek, na primer FB2 in LRF.

Da bi lahko uporabljali različne besedilnih formatov na različnih platformah je bilo ustvarjenih veliko število programov, imenovanih pretvorniki. Pretvorniki besedilnih datotek vam omogočajo, da shranite izvirno besedilo iz ene oblike v drugo in jo uporabite pozneje različne naprave in platforme.

Pretvorniki se ne uporabljajo samo za shranjevanje besedila iz ene oblike v drugo, temveč tudi za ustvarjanje datotek, ki jih je za razliko od njihovih virov mogoče uporabiti na napravah, ki ne morejo »brati« izvirnih datotek. Na primer, nekateri elektronske knjige ki ne podpirajo priljubljenih formatov besedilnih datotek, lahko zlahka prepoznajo formate LRF ali FB2, pridobljene iz izvirnih datotek s programi za pretvorbo.


Zakaj potrebujete besedilo?

Danes obstajajo trije najpogostejši besedilni formati - TXT, RTF in DOC. Kakšna je njihova razlika in kaj ju združuje? Imajo eno skupno stvar: vsi se držijo besedilne informacije... Razlika je v tem, kakšne zmožnosti oblikovanja in obdelave besedil zagotavljajo, pa tudi v tem, kako dostopne so informacije, ki jih imajo v zvezi z združljivostjo programov.

Najpreprostejši format besedila

Najstarejši in najbolj skromen format glede na funkcije. Vse, kar lahko storite z besedilom v tej obliki, je, da sami vnesete besedilo in shranite prelome odstavkov. Ta preprostost v določenih situacijah prevzame pomen vsestranskosti in preglednosti: TXT je zlahka berljiv v različnih aplikacijah in na različnih platformah. Poleg tega lahko številni programi, ki nimajo niti neposredne naloge dela z besedilom, shranijo besedilo v formatu TXT.

TXT procesorji

Od časov DOS-a se mnogi spominjajo urejevalnika besedil Lexicon, ki je dobro obvladoval format TXT visoka stopnja... Danes je glavno orodje za delo s TXT standard Beležnica Windows... Vsak, ki mu njegove funkcije ne zadostujejo, lahko vedno najde urednika za svoj okus in potrebe svetovni splet, vključno z brezplačnim. Na primer, z brezplačnim programom Vega Konstantina Šeremetjeva verjetno ne boste videli sporočila, da je odprta besedilna datoteka prevelika; po avtorjevih zagotovilih Vega različica 2.04 odpira datoteke do 2 Gb (!), sam program pa zavzame le 9,5 kb (primerjaj, Notepad v operacijskem sistemu Windows XP "tehta" približno 65 kb); hkrati je Vega še bolj priročna kot Notepad in ne zahteva namestitve. In tukaj je še en primer možnosti obdelave " golo besedilo". Besedilo, ki ga berete, je bilo vneseno v procesor UltraEdit podjetja IDM Computer Solutions. Njegova močna točka je poseben prikaz in obdelava sintakse programskih jezikov, a tudi z najbolj preprostim besedilom lahko dela čudeže. Poznavalci priročnih rusificiranih programov, ergonomskih in, kar je najpomembneje, "ki vedo veliko" o posebnostih cirilice, bi se morali seznaniti s programom Patriot.

Oblikovanje in vsestranskost

Format obogatenega besedila - tako je kratica v imenu formata, ki ga je ustvaril Microsoft. RTF je besedilo, označeno s posebnimi "nadzornimi besedami", ki vam omogoča izvajanje in shranjevanje precej zapletenega oblikovanja, vstavljanje opomb, glav in nog, slik, tabel in formul, čeprav je RTF pri obdelavi teh dodatnih predmetov slabši od formata DOC. Po velikosti datotek je slabši od DOC: uporaba "kontrolnih besed" za oblikovanje besedila namesto slogovnega lista ne vodi do kompaktnosti. Vendar RTF zmaga v varnostnem sporu z DOC, ker njegova notranja organizacija ne predvideva shranjevanja makrokode in je zato imun na makro viruse.

RTF procesorji

RTF se uporablja kot primarna ali podprta oblika v mnogih, če ne v večini programov za obdelavo besedil. Dobro orodje je lahko na primer Hieroglif Mihaila Morozova. Ta program ne izvaja samo preverjanja črkovanja ruskega jezika, temveč tudi funkcijo samodejnega spreminjanja jezikovne postavitve tipkovnice. Program za obdelavo besedil Atlantis podjetja Rising Sun Solutions, ki obstaja tako v komercialnih kot tudi brezplačne različice, bo zagotovo ustrezal številnim uporabnikom s premišljenostjo vmesnika, prisotnostjo velikega števila bližnjice, zamenljivo orodno vrstico in druge funkcije. Že omenjeni urejevalnik Patriot je sposoben delati tudi z RTF.

"Največja" oblika besedila

Format DOC vključuje najobsežnejše zmožnosti obdelave in oblikovanja besedila, vključno z ustvarjanjem opomb in komentarjev, pa tudi zmožnost ustvarjanja, postavljanja in urejanja tabel, grafikonov, slik in drugih elementov. Res je, da so v celoti in najbolj pravilno vse te funkcije implementirane le v MS Wordu, kar olajša stališče Microsofta, ki ne razkriva trenutnih specifikacij priljubljene oblike. Kljub temu, da DOC »razumejo« tudi drugi programi, njihovi proizvajalci ne morejo vedno zagotoviti njegovega pravilnega prepoznavanja. Za razliko od TXT in RTF je DOC binarni format, zaradi česar je neberljiv v preprostih urejevalnikih besedil, poleg tega pa ne zagotavlja popolne združljivosti lastnih različic.

DOC procesorji

Glavni in glede na zgoraj navedene razloge "nenadomestljiv" urejevalnik besedil za delo z DOC je MS Word, ki najbolj v celoti izvaja vse možnosti tega formata. Veliko produktivnosti in funkcionalnosti dodajajo Wordu razvoj tretjih oseb - vse vrste dodatkov, makrov in programov obstajajo v velikih količinah v prostranstvu omrežja. Konkurenco zagotavljajo na primer WordPerfect iz Corela, StarOffice iz Sun Microsystems in brezplačni OpenOffice.org. Pri delu v Wordu in drugih programih se morate zavedati vprašanja združljivosti formatov in dokument shraniti v DOC le, če ste prepričani, da do nezdružljivosti ne bo prišlo.

Uporabnost formatov

Neutemeljeno je trditi, da je eden od obravnavanih formatov slabši od drugih, ne da bi upoštevali posebnosti nalog, za reševanje katerih bi jih bilo treba uporabiti. Ker si ne bomo zadali pisanja v urejevalniku besedil, je izbira skoraj nedvoumna. Za pripravo obsega besedila od srednje do zelo velikega in za zagotavljanje "popolnega razumevanja", ki ga tipka kateri koli program za montažo, se zdi najbolj priročno uporabiti najpreprostejše, najbolj kompaktno in vsestransko sredstvo za tipkanje in shranjevanje besedila - format TXT. Kar zadeva uporabo drugih besedilnih formatov pri postavitvi, je veliko odvisno od implementacije njihove podpore v določenem programu za postavitev.
OpenOffice.org je mednarodni odprtokodni projekt, ki je namenjen ustvarjanju univerzalnega pisarniški apartma delujejo na različnih operacijskih platformah, imajo odprt API in format datoteke, ki temelji na XML. V bistvu je OpenOffice.org zbirka programov, razvitih znotraj tega projekta... Vključuje: urejevalnik besedil, preglednice, grafični urejevalnik, predstavitveni sistem in sistem za dostop do podatkov. Po svojih zmožnostih je primerljiv s podobnimi komercialnimi programi in se lahko obravnava kot alternativa njim. OpenOffice.org ima trenutno dvojno licenco pod GPL in SISSL. Kljub razlikam v teh licencah je OpenOffice.org brezplačen za končnega uporabnika.

OpenOffice.org izvira iz pisarniškega paketa StarOffice, ki ga je sredi devetdesetih let prejšnjega stoletja razvilo nemško podjetje StarDivision. Jeseni 1999 je Sun prevzel StarDivision. Junija 2000 je že pod blagovno znamko Sun izšel StarOffice 5.2 za MS Windows, Linux in Solaris. 13. oktobra 2000 je bil StarOffice odprtokoden (razen nekaterih modulov tretjih oseb) in je uradno rojstni dan OpenOffice.org. Danes tako prostovoljci z vsega sveta kot programerji Sun delajo na kodi OpenOffice.org.

Trenutno od enega izvorno kodo, ki ga je razvila skupnost OpenOffice.org, sta izdana dva izdelka: StarOffice, ki dodaja komponente pod lastniško licenco, in brezplačni OpenOffice.org. V OpenOffice.org so večino lastniških komponent, ki jih najdemo v StarOffice, zamenjale njihove brezplačne različice.

(Po podatkih cnews.ru.)