[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
 
[an error occurred while processing this directive] [an error occurred while processing this directive]
Skåne Sjælland Linux User Group - http://www.sslug.dk Home   Subscribe   Mail Archive   Forum   Calendar   Search
MhonArc Date: [Date Prev] [Date Index] [Date Next]   Thread: [Date Prev] [Thread Index] [Date Next]   MhonArc
 

Re: [LOCALE] ordlistornas källkod



Goran Andersson wrote:

> Observera att CVS och liknande system är till för källkod, inte
> för data.

Exakt, men min åsikt är att en ordlista är källkod.

> På adressen http://217.215.183.103/ har jag satt upp ett enkelt
> webbgränssnitt till en svensk XD-ordlista.

Mycket intressant.

Göran, vad står siffran för i vänsterkolumnen i din svenska_ord.txt ?
Den verkar ha värdena 1, 2 och 3.  Anger den licensvillkor, källa,
ordfrekvens, eller vad?

Min approach är att arbeta vidare med ispell, men definiera en ny
svenska.aff som inte utgår från grammatiska deklinationer utan ifrån
faktiska böjningsmönster.  En enkel statistisk analys säger att
genitiv-s är det vanligaste böjningsmönstret, och därför värt en
flagga.  Den nuvarande svenska.aff kallar den /A men jag kallar den /s
eftersom det dels är vackrare med små bokstäver, dels lättare att
minnas att /s betyder genitiv-s.  Min ordlista innehåller alltså raden

Anderstorp/s

vilket betyder att formerna Anderstorp och Anderstorps förekommer.
Ord som "andedräkt" förekommer med ändelserna -en och -ens, förutom
att det har genitiv-s (dock förekommer andedräkt inte i pluralis).
Detta mönster har jag kallat /n och raden i min källkodsfil blir

andedräkt/ns

vilket är så mnemoniskt att det nästan går att uttala.  Plural med
-er, -ers, -erna, -ernas har fått flaggan /r, så en tredje rad blir

dräkt/rns

vilket jag för minnets skull uttalar dräkt-eR-Na-S.

Till detta har jag lagt en enkel kommentarsyntax, så att jag ska
minnas varför ett ord står med, och inte är ett misstag, t.ex.

produktplacering/ns  # reklam genom användning av produkten i en film

Min Makefile använder sed för att skala bort kommentarerna och kör
sedan ispell -e för att expandera böjningsflaggorna till alla
förekommande ordformer, vilket blir underlag för aspell-ordlistan till
funktionen "förhandsgranska" i http://susning.nu/

När jag nu kommer på att "produkt" saknas i min ordlista, och det böjs
ju -er-na-s, så kan jag direkt skriva in en enda rad i min textfil

produkt/rns

Detta är ett rejält snabbt sätt att bygga en ordlista, som jag trivs
med.  Det är källkod för mig (= den form jag helst arbetar med).  Jag
tror inte att ett webbgränssnitt kan bli lika snabbt.  Det kan säkert
vara ett bra komplement för att rapportera brister och tillägg, men
seriöst redigeringsarbete görs genom att köra en roman från Projekt
Runeberg eller ett artikelarkiv från dn.se genom aspell och redigera
in orden i listan med Emacs.  Då adderar man 3-6 ordstammar per
minut, med fullständiga böjningsmönster.  I genomsnitt resulterar
varje ordstam i 4,5 stavningsvarianter, så aspell-listan kan växa med
10-30 ord/minut under effektivt arbete.  Min svenska aspell-lista (den
expanderade, som används på susning.nu) är idag 176.000 ord, vilket
munchlist (ett program som följer med ispell) kan reducera till 38.000
stammar.  Munchlist hittar dock en del fuskmönster, t.ex. kan den tro
att en "fors" (vattenfall) är verbet "for" med s-ändelse, och förkorta
detta till for/s, men det skulle jag inte skriva in i källkoden för
min ordlista.

Fortfarande är min version av affixlistan "svenska.aff" inte riktigt
stabil, och jag gör fortfarande ändringar i den (varvid jag måste
ändra alla ord i min ordlista som använder de påverkade flaggorna).
Detta utvecklingsarbete skulle försvåras väsentligt om jag publicerade
en fryst version av affixlistan, men kanske kunde det vara läge att
publicera en "beta" som underlag för diskussioner.  Är någon
intresserad av detta?  Eller är jag den ende som är korkad nog att
vilja arbeta med ispell?


-- 
  Lars Aronsson (sslug@sslug)
  Aronsson Datateknik - http://aronsson.se/



 
Home   Subscribe   Mail Archive   Index   Calendar   Search

 
 
Questions about the web-pages to <www_admin>. Last modified 2005-08-10, 20:53 CEST [an error occurred while processing this directive]
This page is maintained by [an error occurred while processing this directive]MHonArc [an error occurred while processing this directive] # [an error occurred while processing this directive] *