liminfo

Universal Dependencies Reference

UD 의존관계/CoNLL-U 포맷/POS 태그 레퍼런스

28개 결과

Universal Dependencies Reference 소개

Universal Dependencies 레퍼런스는 NLP 연구와 전산언어학에서 사용되는 범언어적 트리뱅크 표준인 UD 주석 프레임워크를 정리한 검색 가능한 가이드입니다. NOUN, VERB, ADJ, ADV, ADP, DET, PRON, PROPN 등 17개 UPOS(범용 품사) 태그를 CoNLL-U 형식 예제와 함께 수록하며, 형태 자질과 의존 관계 정보를 포함합니다.

의존관계 섹션에서는 핵심 통사 관계를 다룹니다: nsubj(명사 주어), obj(직접 목적어), iobj(간접 목적어), obl(사격어/전치사구), advmod(부사 수식), amod(형용사 수식), det(한정사), conj(접속/등위). 각 관계를 영어와 한국어 예시로 설명하며 nsubj(웃는다, 아이가) 같은 트리 표기법과 실제 CoNLL-U 주석을 보여줍니다.

추가 섹션에서는 CoNLL-U 10열 탭 구분 형식(ID, FORM, LEMMA, UPOS, XPOS, FEATS, HEAD, DEPREL, DEPS, MISC), 형태 자질(Number, Case, Tense, VerbForm의 파이프 구분 값), 언어별 XPOS 태그(영어 Penn Treebank, 한국어 세종 태그셋), 공유 논항과 관계절 해소를 위한 향상된 의존 구조, 멀티워드 토큰 처리, validate.py 검증 도구 사용법을 다룹니다.

주요 기능

  • UPOS 태그 전체: NOUN, PROPN, VERB, ADJ, ADV, ADP, DET, PRON과 언어별 예제
  • 핵심 의존관계: nsubj, obj, iobj, obl, advmod, amod, det, conj와 트리 표기법
  • CoNLL-U 10열 형식 명세: sent_id, text 메타데이터, 탭 구분 필드 설명
  • 형태 자질: Number(Sing/Plur), Case(Nom/Acc/Dat/Gen), Tense, VerbForm과 파이프 구문
  • XPOS 교차 참조: Penn Treebank(NN, VBZ, JJ)와 세종 태그셋(NNG, VV, VA, MAG)
  • FORM/LEMMA 매핑 예제: running->run, 달렸다->달리다, better->good 다국어 대응
  • 공지시 해소, 공유 논항, 생략 복원을 위한 향상된 의존 구조 설명
  • 멀티워드 토큰 처리(don't -> do + not 축약형)와 validate.py 사용 가이드

자주 묻는 질문

Universal Dependencies에서 정의하는 UPOS 태그는 무엇인가요?

UD는 17개 범용 품사 태그를 정의합니다. 이 레퍼런스는 가장 많이 사용되는 것들을 다룹니다: NOUN(보통명사), PROPN(고유명사), VERB(동사), ADJ(형용사), ADV(부사), ADP(전치사/후치사), DET(한정사: the/a/이/그), PRON(대명사). 각 태그에 CoNLL-U 열 예제와 언어별 설명을 포함합니다.

Universal Dependencies의 주요 의존관계는 무엇인가요?

핵심 논항 관계: nsubj(명사 주어, 예: 아이가->nsubj->웃는다), obj(직접 목적어), iobj(간접 목적어). 수식 관계: advmod(부사 수식), amod(형용사 수식), det(한정사). 접속: conj와 cc. 사격어: obl은 격조사를 가진 전치사구/부사격 명사구입니다.

CoNLL-U 형식은 어떻게 구성되나요?

탭으로 구분된 10개 열: ID(토큰 인덱스, 1부터), FORM(표면형), LEMMA(기본형), UPOS(범용 품사), XPOS(언어별 품사), FEATS(형태 자질), HEAD(의존 핵 인덱스), DEPREL(의존 관계), DEPS(향상된 의존), MISC. 문장은 빈 줄로 구분하고 # 주석으로 메타데이터를 표시합니다.

UD에서 형태 자질은 어떻게 작동하나요?

FEATS 열에 파이프로 구분된 키=값 쌍을 알파벳순으로 표기합니다: Number=Sing|Person=3, Case=Acc|Number=Plur, Mood=Ind|Tense=Past|VerbForm=Fin. 주요 자질: Number(Sing/Plur/Dual), Case(Nom/Acc/Dat/Gen), Tense(Past/Pres/Fut), VerbForm(Fin/Inf/Part/Ger).

UPOS와 XPOS의 차이점은 무엇인가요?

UPOS는 모든 언어에 일관된 17개 범용 태그셋입니다. XPOS는 코퍼스마다 다른 언어별 태그셋입니다: 영어는 Penn Treebank(NN, VBZ, JJ, RB), 한국어는 세종(NNG, VV, VA, MAG), 독일어는 STTS(VVFIN, ADJA). CoNLL-U의 4번째(UPOS)와 5번째(XPOS) 열에 각각 표기됩니다.

FORM과 LEMMA는 어떻게 다른가요?

FORM은 텍스트에 나타나는 표면형/굴절형이고, LEMMA는 사전/기본형입니다. 예: running(FORM)->run(LEMMA), went->go, better->good. 한국어의 경우 형태소가 풍부한 활용형을 동사 기본형으로 표제어화합니다.

향상된 의존 구조란 무엇인가요?

향상된 의존(10번째 열, DEPS)은 기본 트리를 확장하여 공유 논항, 관계절 해소, 생략 복원을 처리합니다. head:relation 형식으로 파이프 구분하여 여러 의존관계를 표현합니다. 예: 2:nsubj|4:nsubj는 해당 토큰이 서술어 2와 서술어 4 모두의 주어임을 나타냅니다.

CoNLL-U 파일은 어떻게 검증하나요?

공식 validate.py 도구를 사용합니다: python validate.py --lang ko file.conllu. 형식 정확성(탭 구분, 열 수), UD 태그셋 대비 태그 유효성, 트리 구조(단일 루트, 순환 없음), 사영성을 점검합니다. --lang 플래그로 언어별 검증 규칙을 활성화합니다.